Uma Análise das Principais Técnicas de Agrupamento de Dados, aplicadas a Coletâneas Textuais recuperadas de Páginas Web

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Loureiro, Fábio Mascarenhas
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Instituto de Matemática e Estatística
Brasil
UERJ
Programa de Pós-Graduação em Ciências Computacionais
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.bdtd.uerj.br/handle/1/23428
Resumo: Nos últimos tempos,o volume de dados vem crescendo exponencialmente e, portanto devemos buscar soluções apropriadas para extrair conhecimento dessa enorme massa. Uma metodologia adequada para lidar com grandes conjuntos de dados é a descoberta de conhecimento em bases de dados (KDD). Esta metodologia é constituída por várias etapas, possuindo como motor principal a Mineração de Dados.Contudo, não se deve empregar as tarefas relacionadas à Mineração de Dados diretamente no banco, visto que, frequentemente, as tarefas que compõem esta etapa não lidam nativamente com objetos textuais. A estes conjuntos de técnicas utilizadas para interpretar e analisar dados textuais foi denominado Descoberta de Conhecimento em Textos (ou Mineração de Textos). Este campo, ainda emergente, destina-se ao recolhimento de informações significativas a partir de textos em linguagem natural, extraindo conhecimento a partir de documentos textuais. Neste quadro, este trabalho busca apresentar uma visão panorâmica das fases do KDD e seu relacionamento com a etapa de Mineração de dados exemplificando alguns de seus principais métodos através de artigos e pesquisas científicas que os empregaram. Posteriormente, são detalhadas as etapas da Mineração de Textos, apresentando, principalmente suas tarefas de tratamento e redução dos termos da coletânea. Para a primeira etapa, destinada a coleta de documentos, é sugestão deste trabalho o desenvolvimento de rastreadores web focados na recuperação de conteúdos a partir de páginas HTML, armazenando-os em um formato facilmente processável pelas etapas seguintes. Após a apresentação teórica, foi aplicada a metodologia estudada com a finalidade de criar um rastreador web específico para a seção de economia do jornal O Globo (edição digital), seguido pela execução de técnica de agrupamento a fim de intuir sobre os principais assuntos abordados em um determinado período e verificar a possibilidade de agrupamento das postagens por tema e autor.