Feature construction and selection on a grocery retail recommender system

Detalhes bibliográficos
Autor(a) principal: Carvalho, Aline Pontieri de
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: http://hdl.handle.net/10400.26/43044
Resumo: As compras de supermercado são um dos padrões de compras mais frequentes e regulares e, portanto, coletam imenso volume de dados de clientes online e offline. O alto volume de dados relacionados ao cliente nos retalhistas de supermercado pode levar à abundância de dados com ruído e variáveis irrelevantes ou redundantes e, mesmo com alto volume de dados, poderão faltar informações úteis. O sistema de recomendação no retalho alimentar enfrenta problemas que podem interferir com a sua qualidade, como irrelevância, redundância e interação entre as variáveis. Este projeto foi proposto pela Xarevision, tendo em mente o aprimoramento do Shelf20, um sistema de recomendação capaz de preparar listas de compras personalizadas de supermercado, utilizando um mecanismo baseado em Machine Learning. A Xarevision visa uma redução no tempo de recomendação e uma melhoria na qualidade da recomendação por meio da construção e seleção de variáveis. Idealmente, este projeto permitiria que a Shelf20 fornecesse recomendações melhores e mais rápidas para os clientes. A construção de variáveis permite introduzir mais informação ao conjunto de dados, expandindo o espaço de variáveis e possivelmente facilitando o processo de aprendizagem de algoritmos de Machine Learning. A construção de novas variáveis foi baseada na revisão de literatura na procura de fatores associados consumo no supermercado e com o conhecimento de domínio da Xarevision. A seleção de variáveis é definida como o processo de identificar e selecionar o melhor subconjunto de variáveis, sem perda de informações úteis. Para reduzir a dimensionalidade e diminuir o tempo computacional, três algoritmos foram selecionados, um filter e dois wrappers – Fast Correlation-based Filter, Algoritmo Genético e sequential/floating methods. O primeiro foi realizado no WEKA, enquanto os restantes requisitaram bibliotecas de Python. Para avaliar as variáveis construídas e a qualidade dos algoritmos de seleção de variáveis, foram utilizadas quatro medidas: velocidade do modelo, número de variáveis selecionadas, exatidão e F1-score. Ambos os algoritmos fast correlation-based filter e algoritmo genético mostraram uma melhoria de pelo menos 20% nas medidas de avaliação. Feature Construction and Selection on Grocery Retail Recommender System ix Coimbra Business School | ISCAC Quinta Agrícola – Bencanta, 3045-601 Coimbra Tel +351 239 802 000; E-mail: secretariado@iscac.pt; www.iscac.pt No entanto, os sequential/floating methods não foram aplicados por motivos de incompatibilidade entre tecnologias. O algoritmo de fast correlation-based filter selecionou apenas uma variável porque considerou a mesma como predominante, com maior correlação com a classe, e as restantes variáveis como redundantes quando comparadas à predominante. Mesmo assim, conseguiu melhorar o Shelf20, obtendo um melhor desempenho com uma única variável do que com as 27 variáveis originais. As 10 variáveis com maior correlação com a classe obtiveram ainda melhor resultado, porém a elevada correlação entre as variáveis demonstrou redundância. Todavia uma variável pode não conseguir representar toda a complexidade do comportamento dos consumidores nos supermercados. O algoritmo de fast correlation-based filter forneceu a mesma solução, não importando quais fossem os parâmetros definidos. O algoritmo genético, no seu melhor modelo, selecionou 18 variáveis e teve o melhor resultado de todos os testes, independentemente do algoritmo. Shelf20 tornou-se menos dispendioso computacionalmente e mais preciso com a solução encontrada neste projeto. Em relação às variáveis construídas, todas, exceto uma, demonstraram adicionar informação relevante ao conjunto de dados e, portanto, melhorar sua qualidade. Este projeto conseguiu cumprir o seu objetivo principal: melhorar o Shelf20 enriquecendo o conjunto de dados com novas variáveis e selecionando as variáveis mais relevantes e não redundantes, com recurso à seleção de variáveis, para melhorar o seu desempenho.
id RCAP_a3349a64decf003219f62d2bfc9307cb
oai_identifier_str oai:comum.rcaap.pt:10400.26/43044
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Feature construction and selection on a grocery retail recommender systemConstrução de variáveisSeleção de variáveisSistema de recomendaçãoRetalho alimentarFast correlation based filterAlgoritmo genéticoSequential methodsFloating methodsAs compras de supermercado são um dos padrões de compras mais frequentes e regulares e, portanto, coletam imenso volume de dados de clientes online e offline. O alto volume de dados relacionados ao cliente nos retalhistas de supermercado pode levar à abundância de dados com ruído e variáveis irrelevantes ou redundantes e, mesmo com alto volume de dados, poderão faltar informações úteis. O sistema de recomendação no retalho alimentar enfrenta problemas que podem interferir com a sua qualidade, como irrelevância, redundância e interação entre as variáveis. Este projeto foi proposto pela Xarevision, tendo em mente o aprimoramento do Shelf20, um sistema de recomendação capaz de preparar listas de compras personalizadas de supermercado, utilizando um mecanismo baseado em Machine Learning. A Xarevision visa uma redução no tempo de recomendação e uma melhoria na qualidade da recomendação por meio da construção e seleção de variáveis. Idealmente, este projeto permitiria que a Shelf20 fornecesse recomendações melhores e mais rápidas para os clientes. A construção de variáveis permite introduzir mais informação ao conjunto de dados, expandindo o espaço de variáveis e possivelmente facilitando o processo de aprendizagem de algoritmos de Machine Learning. A construção de novas variáveis foi baseada na revisão de literatura na procura de fatores associados consumo no supermercado e com o conhecimento de domínio da Xarevision. A seleção de variáveis é definida como o processo de identificar e selecionar o melhor subconjunto de variáveis, sem perda de informações úteis. Para reduzir a dimensionalidade e diminuir o tempo computacional, três algoritmos foram selecionados, um filter e dois wrappers – Fast Correlation-based Filter, Algoritmo Genético e sequential/floating methods. O primeiro foi realizado no WEKA, enquanto os restantes requisitaram bibliotecas de Python. Para avaliar as variáveis construídas e a qualidade dos algoritmos de seleção de variáveis, foram utilizadas quatro medidas: velocidade do modelo, número de variáveis selecionadas, exatidão e F1-score. Ambos os algoritmos fast correlation-based filter e algoritmo genético mostraram uma melhoria de pelo menos 20% nas medidas de avaliação. Feature Construction and Selection on Grocery Retail Recommender System ix Coimbra Business School | ISCAC Quinta Agrícola – Bencanta, 3045-601 Coimbra Tel +351 239 802 000; E-mail: secretariado@iscac.pt; www.iscac.pt No entanto, os sequential/floating methods não foram aplicados por motivos de incompatibilidade entre tecnologias. O algoritmo de fast correlation-based filter selecionou apenas uma variável porque considerou a mesma como predominante, com maior correlação com a classe, e as restantes variáveis como redundantes quando comparadas à predominante. Mesmo assim, conseguiu melhorar o Shelf20, obtendo um melhor desempenho com uma única variável do que com as 27 variáveis originais. As 10 variáveis com maior correlação com a classe obtiveram ainda melhor resultado, porém a elevada correlação entre as variáveis demonstrou redundância. Todavia uma variável pode não conseguir representar toda a complexidade do comportamento dos consumidores nos supermercados. O algoritmo de fast correlation-based filter forneceu a mesma solução, não importando quais fossem os parâmetros definidos. O algoritmo genético, no seu melhor modelo, selecionou 18 variáveis e teve o melhor resultado de todos os testes, independentemente do algoritmo. Shelf20 tornou-se menos dispendioso computacionalmente e mais preciso com a solução encontrada neste projeto. Em relação às variáveis construídas, todas, exceto uma, demonstraram adicionar informação relevante ao conjunto de dados e, portanto, melhorar sua qualidade. Este projeto conseguiu cumprir o seu objetivo principal: melhorar o Shelf20 enriquecendo o conjunto de dados com novas variáveis e selecionando as variáveis mais relevantes e não redundantes, com recurso à seleção de variáveis, para melhorar o seu desempenho.Ribeiro, António Rui TrigoRepositório ComumCarvalho, Aline Pontieri de2023-01-06T19:41:23Z20222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.26/43044urn:tid:203154070porinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-05-02T11:25:28Zoai:comum.rcaap.pt:10400.26/43044Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:45:33.994150Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Feature construction and selection on a grocery retail recommender system
title Feature construction and selection on a grocery retail recommender system
spellingShingle Feature construction and selection on a grocery retail recommender system
Carvalho, Aline Pontieri de
Construção de variáveis
Seleção de variáveis
Sistema de recomendação
Retalho alimentar
Fast correlation based filter
Algoritmo genético
Sequential methods
Floating methods
title_short Feature construction and selection on a grocery retail recommender system
title_full Feature construction and selection on a grocery retail recommender system
title_fullStr Feature construction and selection on a grocery retail recommender system
title_full_unstemmed Feature construction and selection on a grocery retail recommender system
title_sort Feature construction and selection on a grocery retail recommender system
author Carvalho, Aline Pontieri de
author_facet Carvalho, Aline Pontieri de
author_role author
dc.contributor.none.fl_str_mv Ribeiro, António Rui Trigo
Repositório Comum
dc.contributor.author.fl_str_mv Carvalho, Aline Pontieri de
dc.subject.por.fl_str_mv Construção de variáveis
Seleção de variáveis
Sistema de recomendação
Retalho alimentar
Fast correlation based filter
Algoritmo genético
Sequential methods
Floating methods
topic Construção de variáveis
Seleção de variáveis
Sistema de recomendação
Retalho alimentar
Fast correlation based filter
Algoritmo genético
Sequential methods
Floating methods
description As compras de supermercado são um dos padrões de compras mais frequentes e regulares e, portanto, coletam imenso volume de dados de clientes online e offline. O alto volume de dados relacionados ao cliente nos retalhistas de supermercado pode levar à abundância de dados com ruído e variáveis irrelevantes ou redundantes e, mesmo com alto volume de dados, poderão faltar informações úteis. O sistema de recomendação no retalho alimentar enfrenta problemas que podem interferir com a sua qualidade, como irrelevância, redundância e interação entre as variáveis. Este projeto foi proposto pela Xarevision, tendo em mente o aprimoramento do Shelf20, um sistema de recomendação capaz de preparar listas de compras personalizadas de supermercado, utilizando um mecanismo baseado em Machine Learning. A Xarevision visa uma redução no tempo de recomendação e uma melhoria na qualidade da recomendação por meio da construção e seleção de variáveis. Idealmente, este projeto permitiria que a Shelf20 fornecesse recomendações melhores e mais rápidas para os clientes. A construção de variáveis permite introduzir mais informação ao conjunto de dados, expandindo o espaço de variáveis e possivelmente facilitando o processo de aprendizagem de algoritmos de Machine Learning. A construção de novas variáveis foi baseada na revisão de literatura na procura de fatores associados consumo no supermercado e com o conhecimento de domínio da Xarevision. A seleção de variáveis é definida como o processo de identificar e selecionar o melhor subconjunto de variáveis, sem perda de informações úteis. Para reduzir a dimensionalidade e diminuir o tempo computacional, três algoritmos foram selecionados, um filter e dois wrappers – Fast Correlation-based Filter, Algoritmo Genético e sequential/floating methods. O primeiro foi realizado no WEKA, enquanto os restantes requisitaram bibliotecas de Python. Para avaliar as variáveis construídas e a qualidade dos algoritmos de seleção de variáveis, foram utilizadas quatro medidas: velocidade do modelo, número de variáveis selecionadas, exatidão e F1-score. Ambos os algoritmos fast correlation-based filter e algoritmo genético mostraram uma melhoria de pelo menos 20% nas medidas de avaliação. Feature Construction and Selection on Grocery Retail Recommender System ix Coimbra Business School | ISCAC Quinta Agrícola – Bencanta, 3045-601 Coimbra Tel +351 239 802 000; E-mail: secretariado@iscac.pt; www.iscac.pt No entanto, os sequential/floating methods não foram aplicados por motivos de incompatibilidade entre tecnologias. O algoritmo de fast correlation-based filter selecionou apenas uma variável porque considerou a mesma como predominante, com maior correlação com a classe, e as restantes variáveis como redundantes quando comparadas à predominante. Mesmo assim, conseguiu melhorar o Shelf20, obtendo um melhor desempenho com uma única variável do que com as 27 variáveis originais. As 10 variáveis com maior correlação com a classe obtiveram ainda melhor resultado, porém a elevada correlação entre as variáveis demonstrou redundância. Todavia uma variável pode não conseguir representar toda a complexidade do comportamento dos consumidores nos supermercados. O algoritmo de fast correlation-based filter forneceu a mesma solução, não importando quais fossem os parâmetros definidos. O algoritmo genético, no seu melhor modelo, selecionou 18 variáveis e teve o melhor resultado de todos os testes, independentemente do algoritmo. Shelf20 tornou-se menos dispendioso computacionalmente e mais preciso com a solução encontrada neste projeto. Em relação às variáveis construídas, todas, exceto uma, demonstraram adicionar informação relevante ao conjunto de dados e, portanto, melhorar sua qualidade. Este projeto conseguiu cumprir o seu objetivo principal: melhorar o Shelf20 enriquecendo o conjunto de dados com novas variáveis e selecionando as variáveis mais relevantes e não redundantes, com recurso à seleção de variáveis, para melhorar o seu desempenho.
publishDate 2022
dc.date.none.fl_str_mv 2022
2022-01-01T00:00:00Z
2023-01-06T19:41:23Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.26/43044
urn:tid:203154070
url http://hdl.handle.net/10400.26/43044
identifier_str_mv urn:tid:203154070
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602776682201088