Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Tuy, Pétala Gardênia da Silva Estrela
![lattes](/bdtd/themes/bdtd/images/lattes.gif?_=1676566308) |
Orientador(a): |
Rios, Tatiane Nogueira
![lattes](/bdtd/themes/bdtd/images/lattes.gif?_=1676566308) |
Banca de defesa: |
Rios, Tatiane Nogueira
,
Pires, Matheus Giovanni
,
Barreto, Marcos Ennes
![lattes](/bdtd/themes/bdtd/images/lattes.gif?_=1676566308) |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Universidade Federal da Bahia
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação (PGCOMP)
|
Departamento: |
Instituto de Computação - IC
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufba.br/handle/ri/36662
|
Resumo: |
Big Data é um tópico de tendência que tem ganhado atenção no mundo empresarial e acadêmico ambientes. O termo refere-se à enorme quantidade de dados que estão sendo gerados todos os dias. numa variedade de fontes e formatos. Uma parte expressiva do Big Data está no formato de texto que pode ser usado para resolver vários problemas da vida real, como deteção de spam, identificação de autores, classificação de páginas web e análise de sentimento. Os conjuntos de dados de texto são especialmente complicado, uma vez que a sua elevada dimensionalidade pode estender-se da vertical à horizontal alta dimensionalidade (alto número de instâncias e atributos, respectivamente). A fim de extrair conhecimento útil de tais conjuntos de dados de alta dimensão, técnicas de análise de dados devem ser capazes de enfrentar os seus novos desafios: volume, velocidade, variedade e variabilidade. Os Sistemas de Classificação Fuzzy Rule-Based (FRBCS) demonstraram lidar eficazmente com a incerteza, imprecisão e ruído inerentes aos dados. No entanto, o desempenho dos FRBCSs é altamente afetada pelo número crescente de instâncias e atributos presentes no Big Data. As abordagens propostas anteriormente tentam adaptar os FRBCS existentes para lidar com Big Data distribuindo o processamento de dados com o paradigma MapReduce. Esta metodologia aborda alta dimensionalidade vertical, mas não aborda conjuntos de dados com vertical simultânea e alta dimensionalidade horizontal, como é o caso dos conjuntos de dados de texto. Alta horizontal a redução da dimensionalidade poderia ser feita utilizando técnicas comuns de seleção de características, como MI e Qui-quadrado. No entanto, o uso dessas técnicas de seleção de recursos não pode ser a melhor alternativa, uma vez que a precisão do modelo pode ser afetada pela perda de informações ao manter apenas um subconjunto de atributos. Neste trabalho, tratamos do supracitado desvantagens ao propor o Summarizer, uma abordagem para a construção de espaços de recursos reduzidos para dados dimensionais horizontalmente elevados. Para tal, realizamos um estudo empírico que compara um classificador bem conhecido proposto para conjuntos de dados verticais de alta dimensionalidade com e sem o processo de redução da dimensionalidade horizontal proposto pelo Summarizer. Nossas descobertas mostram que os classificadores existentes que lidam com problemas verticais de Big Data podem ser melhorado adicionando a abordagem Summarizer ao processo de aprendizagem, o que sugere que um algoritmo de aprendizagem unificado para conjuntos de dados com um alto número de instâncias, bem como um alto número de atributos, pode ser possível. |