Assessment of text clustering approaches for legal documents
O sistema judiciário é composto por inúmeros documentos relacionados a processos jurídicos. Esses documentos podem conter informações relevantes que suportem a tomada de decisão em processos futuros. No entanto, a coleta dessas informações não é uma tarefa trivial. Este artigo propõe o uso de agrupamento para reunir processos semelhantes e facilitar a coleta de informações. Dessa forma, diferentes abordagens foram avaliadas com a intenção de identificar a mais adequada para realizar esta tarefa. As abordagens foram aplicadas a uma base de dados composta por 1515 textos de fatos de petições iniciais. Essas abordagens foram avaliadas levando em consideração métricas de avaliação internas e os textos dos processos agrupados. Os resultados apontaram que a melhor abordagem para realizar o agrupamento de processos jurídicos é composta pelo algoritmo K-Means e pela técnica de representação TF-IDF em combinação com a técnica PCA.