Utilização de técnicas de mineração de texto para organização não supervisionada de atos processuais digitais

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Araújo Neto, Alfredo Silveira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual do Ceará
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=88784
Resumo: <div style=""><font face="Arial, Verdana"><span style="font-size: 13.3333px;">Os rápidos avanços das tecnologias relacionadas à captura e ao armazenamento de dados&nbsp;</span></font><span style="font-size: 13.3333px; font-family: Arial, Verdana;">em formato digital têm permitido às organizações o acúmulo de um volume de informações&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">extremamente elevado, constituído em maior proporção por dados em formato não estruturado,&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">representados por textos. Neste contexto, a mineração de dados apresenta-se como um processo&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de descoberta automática que age sobre grandes bancos de dados, que possibilita a extração de&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">conhecimento a partir de documentos textuais brutos e que promove um aperfeiçoamento na&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">recuperação de informações relevantes por parte das organizações. Dentre as inúmeras fontes de&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">documentos textuais, disponíveis em meio digital, encontram-se os diários de justiça eletrônicos,&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">que têm como propósito tornar públicos de modo oficial todos os atos do Poder Judiciário. Não&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">obstante a publicação em formato digital tenha proporcionado melhorias representadas pela&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">supressão de imperfeições pertinentes à divulgação em formato impresso, verifica-se que a&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">aplicação de métodos de mineração de dados, capazes de classificar os atos processuais sem a&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">interferência humana, poderia tornar mais célere a análise dos seus conteúdos. Neste sentido,&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">este trabalho desenvolve uma ferramenta apta a agrupar e categorizar de forma automática atos&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">processuais digitais, e, para este fim, quatro métodos de agrupamento de objetos, utilizando-se de&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">três índices de dissimilaridade, foram avaliados. Inicialmente, a atividade de determinação dos&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">grupos foi modelada como um problema de otimização e por intermédio da aplicação dos métodos&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">iterativos pesquisa harmônica, algoritmo genético e K-means os índices de dissimilaridade&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância Euclidiana, do Coseno e de Hamming foram avaliados, auferindo-se como o índice&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">de dissimilaridade mais apropriado a distância do Coseno. Em seguida, com o emprego da&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">distância do Coseno, os métodos iterativos pesquisa harmônica, algoritmo genético e K-means&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">foram confrontados entre si, obtendo-se como procedimento mais adequado o algoritmo Kmeans.&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">O método K-means, novamente utilizando-se da distância do Coseno como índice de&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">dissimilaridade, foi posteriormente comparado ao algoritmo de passagem única C3M, outra vez&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">se sobressaindo. A despeito do método C3M possuir a característica singular de determinar o&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">número de grupos K, verificou-se que a quantidade de grupos estabelecida pelo mesmo não&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">apresentava a precisão esperada, exigindo por consequência a investigação de outras técnicas&nbsp;</span><span style="font-size: 13.3333px; font-family: Arial, Verdana;">capazes de determinar o número de grupos presente em uma coleção de documentos.&nbsp;</span><span style="font-size: 13.3333px;">Palavras-chave: Mineração de Dados. Heurística. Otimização Combinatória. Computação&nbsp;</span><span style="font-size: 13.3333px;">Bioinspirada. Descoberta de Conhecimento.</span></div>