Detalhes bibliográficos
Ano de defesa: |
2024 |
Autor(a) principal: |
Darú, Gilsiley Henrique |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-07012025-171839/
|
Resumo: |
A crescente demanda por sistemas automatizados de classificação de produtos em plataformas de e-commerce impulsionou a busca por soluções eficientes para a categorização de produtos, especialmente em português. Este estudo investiga a adaptação de técnicas de recuperação da informação clássicas sacola de palavras, TF, e TF-IDF para a tarefa de classificar descrições curtas de produtos. A pesquisa avalia diferentes estratégias de pré-processamento e tokenização, incluindo a análise do impacto da normalização L2. Os resultados demonstraram que métodos simples de recuperação da informação, quando combinados com pré-processamento adequado e otimização de parâmetros, podem alcançar desempenho significativamente superior. Para avaliar abrangentemente o desempenho e a robustez dos modelos, foram propostas novas métricas Índice de Eficiência Geral (IEG) e Índice de Eficiência Geral Estabilizado (IEGE). Essas métricas combinam a acurácia e o F1-score macro, oferecendo uma avaliação mais completa do desempenho, especialmente em cenários de desbalanceamento de classes. Este trabalho contribui com insights valiosos para o desenvolvimento de sistemas de categorização de produtos mais eficientes em plataformas de e-commerce em português. |