Comparando algoritimos multirrótulos aplicados em mineração de sentimentos

Detalhes bibliográficos
Autor(a) principal: Dias, Andrey Naligatski
Data de Publicação: 2024
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/37310
Resumo: The advancement of the internet and the increase in the number of users in recent years have led to a considerable rise in the amount of available data. This data has become extremely valuable for large global companies, which use it as the basis for Machine Learning algorithms. These algorithms are employed in analyzing their target audience's opinions regarding the brand and products, as well as in various activities on their platforms, such as search engine operations, product recommendations, spam filtering, and targeted advertising, among others. The main objective of this study is to compare different multi-label classification algorithms that use problem transformation techniques, including Binary Relevance, Classifier Chains, Random k-Labelsets, and Label Powerset. These algorithms are applied to three sentiment datasets: the first is a dataset with tweets containing 6179 entries in English and 11 unbalanced labels, the second with 5131 comments about depression on a subreddit and 8 balanced labels, and the third with 30,000 comments from various subtopics on Reddit and 27 unbalanced labels. The purpose is to apply metrics such as accuracy, precision, recall, f1-score, and precision at K for each algorithm, determining their performance under varied conditions, implementing these algorithms using the Python programming language and the Scikit-Multilearn library. When comparing the results, it is noted that the Binary Relevance algorithm performs superiorly compared to the others when trained on a dataset with balanced labels, standing out mainly in precision with an approximate result of 75% and in precision at K with 69%. On the other hand, the Classifier Chains algorithm shows consistent performance across all datasets, notably with its precision of 76%. Despite a significant drop in performance on an unbalanced dataset, the Random k-Labelsets and Label Powerset algorithms demonstrate better performance, particularly standing out in accuracy with results close to 31% for both and in recall with around 22% for both again.
id UTFPR-12_1a4c8c5d6271970e2c1c04fd6e5c202c
oai_identifier_str oai:repositorio.utfpr.edu.br:1/37310
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Comparando algoritimos multirrótulos aplicados em mineração de sentimentosComparing multilabels algorithms applied in sentiment miningAprendizado do computadorInteligência artificialClassificaçãoEmoçõesMachine learningArtificial intelligenceClassificationEmotionsCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOThe advancement of the internet and the increase in the number of users in recent years have led to a considerable rise in the amount of available data. This data has become extremely valuable for large global companies, which use it as the basis for Machine Learning algorithms. These algorithms are employed in analyzing their target audience's opinions regarding the brand and products, as well as in various activities on their platforms, such as search engine operations, product recommendations, spam filtering, and targeted advertising, among others. The main objective of this study is to compare different multi-label classification algorithms that use problem transformation techniques, including Binary Relevance, Classifier Chains, Random k-Labelsets, and Label Powerset. These algorithms are applied to three sentiment datasets: the first is a dataset with tweets containing 6179 entries in English and 11 unbalanced labels, the second with 5131 comments about depression on a subreddit and 8 balanced labels, and the third with 30,000 comments from various subtopics on Reddit and 27 unbalanced labels. The purpose is to apply metrics such as accuracy, precision, recall, f1-score, and precision at K for each algorithm, determining their performance under varied conditions, implementing these algorithms using the Python programming language and the Scikit-Multilearn library. When comparing the results, it is noted that the Binary Relevance algorithm performs superiorly compared to the others when trained on a dataset with balanced labels, standing out mainly in precision with an approximate result of 75% and in precision at K with 69%. On the other hand, the Classifier Chains algorithm shows consistent performance across all datasets, notably with its precision of 76%. Despite a significant drop in performance on an unbalanced dataset, the Random k-Labelsets and Label Powerset algorithms demonstrate better performance, particularly standing out in accuracy with results close to 31% for both and in recall with around 22% for both again.O avanço da internet e o aumento do número de usuários nos últimos anos têm gerado um considerável aumento na quantidade de dados disponíveis. Esses dados se tornaram extremamente valiosos para grandes empresas globais, que os utilizam como base para algoritmos de Aprendizado de Máquina. Esses algoritmos são empregados tanto na análise das opiniões de seu público-alvo em relação à marca e aos produtos quanto em diversas atividades em suas plataformas, como operações de mecanismos de busca, recomendações de produtos, filtragem de spam e publicidade direcionada, entre outras. O principal objetivo deste estudo é comparar diferentes algoritmos de classificação multirrótulos que utilizam técnicas de transformação de problemas, incluindo Binary Relevance, Classifier Chains, Random k-Labelsets e Label Powerset. Esses algoritmos são aplicados a três bases de dados contendo sentimentos, sendo a primeira uma base de dados com tweets contendo 6179 dados em língua inglesa e 11 rótulos desbalanceados, a segunda com 5131 comentários a respeito de depressão em um subreddit e 8 rótulos balanceados, e uma terceira com 30000 comentários de subtópicos variados do Reddit e 27 rótulos desbalanceados. O propósito é aplicar métricas como Accuracy, Precision, Recall, F1-score e Precision at K para cada algoritmo, determinando seu desempenho em condições variadas, implementando tais algoritmos utilizando a linguagem de programação Python, com a biblioteca Scikit-Multilearn. Ao comparar os resultados, nota-se que o algoritmo Binary Relevance apresenta desempenho superior em relação aos demais quando treinado em um conjunto de dados com rótulos balanceados, destacando-se principalmente em Precision com um resultado aproximado de 75% e em Precision at K com 69%. Por outro lado, o algoritmo Classifier Chains apresenta desempenho consistente em todos os conjuntos de dados, notadamente pela sua Precision de 76%. Apesar de ter uma queda significativa de desempenho em um conjunto de dados desbalanceado, os algoritmos Random kLabelsets e Label Powerset demonstram um desempenho melhor, destacando-se especialmente em accuracy com resultados próximos de 31% em ambos, e em recall com cerca de 22% para ambos novamente.Universidade Tecnológica Federal do ParanáPonta GrossaBrasilDepartamento Acadêmico de InformáticaCiência da ComputaçãoUTFPRSchmitke, Luiz RafaelSchmitke, Luiz RafaelAlmeida, Simone deBorges, André PinzDias, Andrey Naligatski2025-07-02T16:25:12Z2025-07-02T16:25:12Z2024-05-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfDIAS, Andrey Naligatski. Comparando algoritimos multirrótulos aplicados em mineração de sentimentos. 2024. Trabalho de Conclusão de Curso (Bacharel em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, 2024.http://repositorio.utfpr.edu.br/jspui/handle/1/37310porhttp://creativecommons.org/licenses/by-sa/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-07-03T06:12:36Zoai:repositorio.utfpr.edu.br:1/37310Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-07-03T06:12:36Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Comparando algoritimos multirrótulos aplicados em mineração de sentimentos
Comparing multilabels algorithms applied in sentiment mining
title Comparando algoritimos multirrótulos aplicados em mineração de sentimentos
spellingShingle Comparando algoritimos multirrótulos aplicados em mineração de sentimentos
Dias, Andrey Naligatski
Aprendizado do computador
Inteligência artificial
Classificação
Emoções
Machine learning
Artificial intelligence
Classification
Emotions
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Comparando algoritimos multirrótulos aplicados em mineração de sentimentos
title_full Comparando algoritimos multirrótulos aplicados em mineração de sentimentos
title_fullStr Comparando algoritimos multirrótulos aplicados em mineração de sentimentos
title_full_unstemmed Comparando algoritimos multirrótulos aplicados em mineração de sentimentos
title_sort Comparando algoritimos multirrótulos aplicados em mineração de sentimentos
author Dias, Andrey Naligatski
author_facet Dias, Andrey Naligatski
author_role author
dc.contributor.none.fl_str_mv Schmitke, Luiz Rafael
Schmitke, Luiz Rafael
Almeida, Simone de
Borges, André Pinz
dc.contributor.author.fl_str_mv Dias, Andrey Naligatski
dc.subject.por.fl_str_mv Aprendizado do computador
Inteligência artificial
Classificação
Emoções
Machine learning
Artificial intelligence
Classification
Emotions
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Aprendizado do computador
Inteligência artificial
Classificação
Emoções
Machine learning
Artificial intelligence
Classification
Emotions
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description The advancement of the internet and the increase in the number of users in recent years have led to a considerable rise in the amount of available data. This data has become extremely valuable for large global companies, which use it as the basis for Machine Learning algorithms. These algorithms are employed in analyzing their target audience's opinions regarding the brand and products, as well as in various activities on their platforms, such as search engine operations, product recommendations, spam filtering, and targeted advertising, among others. The main objective of this study is to compare different multi-label classification algorithms that use problem transformation techniques, including Binary Relevance, Classifier Chains, Random k-Labelsets, and Label Powerset. These algorithms are applied to three sentiment datasets: the first is a dataset with tweets containing 6179 entries in English and 11 unbalanced labels, the second with 5131 comments about depression on a subreddit and 8 balanced labels, and the third with 30,000 comments from various subtopics on Reddit and 27 unbalanced labels. The purpose is to apply metrics such as accuracy, precision, recall, f1-score, and precision at K for each algorithm, determining their performance under varied conditions, implementing these algorithms using the Python programming language and the Scikit-Multilearn library. When comparing the results, it is noted that the Binary Relevance algorithm performs superiorly compared to the others when trained on a dataset with balanced labels, standing out mainly in precision with an approximate result of 75% and in precision at K with 69%. On the other hand, the Classifier Chains algorithm shows consistent performance across all datasets, notably with its precision of 76%. Despite a significant drop in performance on an unbalanced dataset, the Random k-Labelsets and Label Powerset algorithms demonstrate better performance, particularly standing out in accuracy with results close to 31% for both and in recall with around 22% for both again.
publishDate 2024
dc.date.none.fl_str_mv 2024-05-16
2025-07-02T16:25:12Z
2025-07-02T16:25:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv DIAS, Andrey Naligatski. Comparando algoritimos multirrótulos aplicados em mineração de sentimentos. 2024. Trabalho de Conclusão de Curso (Bacharel em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, 2024.
http://repositorio.utfpr.edu.br/jspui/handle/1/37310
identifier_str_mv DIAS, Andrey Naligatski. Comparando algoritimos multirrótulos aplicados em mineração de sentimentos. 2024. Trabalho de Conclusão de Curso (Bacharel em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, 2024.
url http://repositorio.utfpr.edu.br/jspui/handle/1/37310
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-sa/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-sa/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
Brasil
Departamento Acadêmico de Informática
Ciência da Computação
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
Brasil
Departamento Acadêmico de Informática
Ciência da Computação
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850497971837206528