Categorização de produtos em e-commerce: avaliação do método Argmax para classificação de descrições curtas em português

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Darú, Gilsiley Henrique
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-07012025-171839/
Resumo: A crescente demanda por sistemas automatizados de classificação de produtos em plataformas de e-commerce impulsionou a busca por soluções eficientes para a categorização de produtos, especialmente em português. Este estudo investiga a adaptação de técnicas de recuperação da informação clássicas sacola de palavras, TF, e TF-IDF para a tarefa de classificar descrições curtas de produtos. A pesquisa avalia diferentes estratégias de pré-processamento e tokenização, incluindo a análise do impacto da normalização L2. Os resultados demonstraram que métodos simples de recuperação da informação, quando combinados com pré-processamento adequado e otimização de parâmetros, podem alcançar desempenho significativamente superior. Para avaliar abrangentemente o desempenho e a robustez dos modelos, foram propostas novas métricas Índice de Eficiência Geral (IEG) e Índice de Eficiência Geral Estabilizado (IEGE). Essas métricas combinam a acurácia e o F1-score macro, oferecendo uma avaliação mais completa do desempenho, especialmente em cenários de desbalanceamento de classes. Este trabalho contribui com insights valiosos para o desenvolvimento de sistemas de categorização de produtos mais eficientes em plataformas de e-commerce em português.