Uma Análise das Principais Técnicas de Agrupamento de Dados, aplicadas a Coletâneas Textuais recuperadas de Páginas Web
Ano de defesa: | 2016 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Instituto de Matemática e Estatística Brasil UERJ Programa de Pós-Graduação em Ciências Computacionais |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://www.bdtd.uerj.br/handle/1/23428 |
Resumo: | Nos últimos tempos,o volume de dados vem crescendo exponencialmente e, portanto devemos buscar soluções apropriadas para extrair conhecimento dessa enorme massa. Uma metodologia adequada para lidar com grandes conjuntos de dados é a descoberta de conhecimento em bases de dados (KDD). Esta metodologia é constituída por várias etapas, possuindo como motor principal a Mineração de Dados.Contudo, não se deve empregar as tarefas relacionadas à Mineração de Dados diretamente no banco, visto que, frequentemente, as tarefas que compõem esta etapa não lidam nativamente com objetos textuais. A estes conjuntos de técnicas utilizadas para interpretar e analisar dados textuais foi denominado Descoberta de Conhecimento em Textos (ou Mineração de Textos). Este campo, ainda emergente, destina-se ao recolhimento de informações significativas a partir de textos em linguagem natural, extraindo conhecimento a partir de documentos textuais. Neste quadro, este trabalho busca apresentar uma visão panorâmica das fases do KDD e seu relacionamento com a etapa de Mineração de dados exemplificando alguns de seus principais métodos através de artigos e pesquisas científicas que os empregaram. Posteriormente, são detalhadas as etapas da Mineração de Textos, apresentando, principalmente suas tarefas de tratamento e redução dos termos da coletânea. Para a primeira etapa, destinada a coleta de documentos, é sugestão deste trabalho o desenvolvimento de rastreadores web focados na recuperação de conteúdos a partir de páginas HTML, armazenando-os em um formato facilmente processável pelas etapas seguintes. Após a apresentação teórica, foi aplicada a metodologia estudada com a finalidade de criar um rastreador web específico para a seção de economia do jornal O Globo (edição digital), seguido pela execução de técnica de agrupamento a fim de intuir sobre os principais assuntos abordados em um determinado período e verificar a possibilidade de agrupamento das postagens por tema e autor. |