Detalhes bibliográficos
Ano de defesa: |
2014 |
Autor(a) principal: |
Frutuoso, Danielle Guedes |
Orientador(a): |
Prudêncio, Ricardo Bastos Cavalcante |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/14018
|
Resumo: |
A explosão de dados na internet deixou de ter foco apenas em grandes empresas para ser amplamente utilizada por usuários comuns. Esse crescimento elevado traz consigo grandes desafios em relação à disponibilização da informação. A natureza descentralizada e desestruturada na qual esses dados estão disponíveis, tornam a tarefa de encontrar, analisar e sintetizar comentários sobre uma dada empresa, produto ou serviço extremamente complicada, ocasionando resultados de baixa qualidade. Esta pesquisa tem como foco a extração de informação de textos livres gerados pela rede social Twitter, onde na maioria das vezes apresentam uma estrutura linguística irregular. Dentre os diversos trabalhos relacionados à extração de informação podemos destacar o Reconhecimento de Entidades Mencionadas (REM), cujo objetivo consiste em localizar e classificar elementos do texto em categorias pré-definidas como Organizações, Pessoas, Local, etc. Neste trabalho será considerada apenas a categoria Organização, com ênfase em palavras homônimas. O experimento deste trabalho foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que no primeiro exige o conhecimento do especialista para determinar todos os atributos considerados relevantes para o aprendizado supervisionado. No segundo cenário, um processo automatizado define parte desses atributos. Os experimentos foram realizados usando a ferramenta Weka onde foram avaliados os classificadores: Naive Bayes, Máquinas de Vetores de Suporte (SVM), K-Vizinhos mais Próximos e Árvores de Decisão. Como medidas de desempenho foram analisadas taxas de acerto, precisão, cobertura e medida-F. Apesar dos resultados apresentados pelos classificadores se mostrarem bastante aproximados, o algoritmo K-Vizinhos mais Próximos obteve em boa parte dos testes melhores resultados. Nos dois cenários os resultados chegaram próximos um do outro, porém o primeiro cenário obteve como resultado médio de acerto, um percentual de 91,7% se destacando em relação à média alcançada de 88,9% para a segunda etapa. |