Recuperação de informação e classificação de entidades organizacionais em textos não estruturados

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Frutuoso, Danielle Guedes
Orientador(a): Prudêncio, Ricardo Bastos Cavalcante
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/14018
Resumo: A explosão de dados na internet deixou de ter foco apenas em grandes empresas para ser amplamente utilizada por usuários comuns. Esse crescimento elevado traz consigo grandes desafios em relação à disponibilização da informação. A natureza descentralizada e desestruturada na qual esses dados estão disponíveis, tornam a tarefa de encontrar, analisar e sintetizar comentários sobre uma dada empresa, produto ou serviço extremamente complicada, ocasionando resultados de baixa qualidade. Esta pesquisa tem como foco a extração de informação de textos livres gerados pela rede social Twitter, onde na maioria das vezes apresentam uma estrutura linguística irregular. Dentre os diversos trabalhos relacionados à extração de informação podemos destacar o Reconhecimento de Entidades Mencionadas (REM), cujo objetivo consiste em localizar e classificar elementos do texto em categorias pré-definidas como Organizações, Pessoas, Local, etc. Neste trabalho será considerada apenas a categoria Organização, com ênfase em palavras homônimas. O experimento deste trabalho foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que no primeiro exige o conhecimento do especialista para determinar todos os atributos considerados relevantes para o aprendizado supervisionado. No segundo cenário, um processo automatizado define parte desses atributos. Os experimentos foram realizados usando a ferramenta Weka onde foram avaliados os classificadores: Naive Bayes, Máquinas de Vetores de Suporte (SVM), K-Vizinhos mais Próximos e Árvores de Decisão. Como medidas de desempenho foram analisadas taxas de acerto, precisão, cobertura e medida-F. Apesar dos resultados apresentados pelos classificadores se mostrarem bastante aproximados, o algoritmo K-Vizinhos mais Próximos obteve em boa parte dos testes melhores resultados. Nos dois cenários os resultados chegaram próximos um do outro, porém o primeiro cenário obteve como resultado médio de acerto, um percentual de 91,7% se destacando em relação à média alcançada de 88,9% para a segunda etapa.