MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube

Bibliographic Details
Main Author: Silva, Renato Moraes, 1988-
Publication Date: 2017
Other Authors: Yamakami, Akebo, 1947-
Format: Article
Language: por
Source: Repositório da Produção Científica e Intelectual da Unicamp
Download full: https://hdl.handle.net/20.500.12733/1651925
Summary: Agradecimentos: Os autores sao gratos à Fapesp, CAPES (Proc. 1709642) e CNPq (Proc. 141089/2013-0) pelo apoio financeiro concedido ao desenvolvimento desse projeto
id CAMP_1b9c29a391fc7d22b3b0b8ef4ff55705
oai_identifier_str oai:https://www.repositorio.unicamp.br/:1190114
network_acronym_str CAMP
network_name_str Repositório da Produção Científica e Intelectual da Unicamp
repository_id_str
spelling MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTubeYoutube (Recurso eletrônico)YouTube (Electronic resource)MDLTextArtigo originalAgradecimentos: Os autores sao gratos à Fapesp, CAPES (Proc. 1709642) e CNPq (Proc. 141089/2013-0) pelo apoio financeiro concedido ao desenvolvimento desse projetoMuitos usuários do YouTube produzem conteúdo regularmente e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso vem despertando a atenção de usuários mal-intencionados, que propagam comentários indesejados para se autopromoverem ou para disseminar links maliciosos. Neste cenário, métodos tradicionais de categorização de texto podem sofrer limitações devido às características inerentes ao problema: (1) os comentários costumam ser curtos e mal redigidos e (2) o problema de classificação é naturalmente online. Este artigo avalia um método de classificação baseado no princípio da descrição mais simples e compara os resultados com os de métodos tradicionais de aprendizado online. Também é proposta uma técnica ensemble, que combina os métodos de classificação com diferentes técnicas de processamento de linguagem natural. Os experimentos foram cuidadosamente realizados e a análise estatística dos resultados indica que a técnica proposta obteve desempenho superior ao obtSeveral YouTube users regularly produce video content and make thistask their main livelihood activity. However, such success is drawing the at-tention of malicious users which propagate undesired comments, looking forself-promotion or disseminating malicious links. The available text categoriza-tion methods commonly used to address this problem suffer from the followinginherent characteristics: (1) the comments are usually short and poorly writtenand (2) the classification problem is naturally online. In this paper, we evalu-ate a classification method based on the minimum description length principleand compare its results with those of well-established online learning techni-ques. We also propose an ensemble approach which combines the classificationmethods with different natural language processing techniques. The performedexperiments were carefully carried out and statistical analysis of the results in-dicates that the proposed technique was superior than when only the originalcomments were employedCOORDENAÇÃO DE APERFEIÇOAMENTO DE PESSOAL DE NÍVEL SUPERIOR - CAPESCONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO - CNPQFUNDAÇÃO DE AMPARO À PESQUISA DO ESTADO DE SÃO PAULO - FAPESPAbertoUNIVERSIDADE ESTADUAL DE CAMPINASSilva, Renato Moraes, 1988-Yamakami, Akebo, 1947-2017info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://hdl.handle.net/20.500.12733/1651925SILVA, Renato Moraes; YAMAKAMI, Akebo. MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube. ISYS: revista brasileira de sistemas de informação. Porto Alegre, RS : Sociedade Brasileira de Computação, 2017.. Vol. 10, no. 3 (2017), p. 49-73. Disponível em: https://hdl.handle.net/20.500.12733/1651925. Acesso em: 3 jun. 2025.https://repositorio.unicamp.br/acervo/detalhe/1190114porreponame:Repositório da Produção Científica e Intelectual da Unicampinstname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2023-10-18T12:41:34Zoai:https://www.repositorio.unicamp.br/:1190114Repositório InstitucionalPUBhttp://repositorio.unicamp.br/oai/requestreposip@unicamp.bropendoar:2023-10-18T12:41:34Repositório da Produção Científica e Intelectual da Unicamp - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
title MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
spellingShingle MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
Silva, Renato Moraes, 1988-
Youtube (Recurso eletrônico)
YouTube (Electronic resource)
MDLText
Artigo original
title_short MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
title_full MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
title_fullStr MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
title_full_unstemmed MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
title_sort MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
author Silva, Renato Moraes, 1988-
author_facet Silva, Renato Moraes, 1988-
Yamakami, Akebo, 1947-
author_role author
author2 Yamakami, Akebo, 1947-
author2_role author
dc.contributor.none.fl_str_mv UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Silva, Renato Moraes, 1988-
Yamakami, Akebo, 1947-
dc.subject.por.fl_str_mv Youtube (Recurso eletrônico)
YouTube (Electronic resource)
MDLText
Artigo original
topic Youtube (Recurso eletrônico)
YouTube (Electronic resource)
MDLText
Artigo original
description Agradecimentos: Os autores sao gratos à Fapesp, CAPES (Proc. 1709642) e CNPq (Proc. 141089/2013-0) pelo apoio financeiro concedido ao desenvolvimento desse projeto
publishDate 2017
dc.date.none.fl_str_mv 2017
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1651925
SILVA, Renato Moraes; YAMAKAMI, Akebo. MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube. ISYS: revista brasileira de sistemas de informação. Porto Alegre, RS : Sociedade Brasileira de Computação, 2017.. Vol. 10, no. 3 (2017), p. 49-73. Disponível em: https://hdl.handle.net/20.500.12733/1651925. Acesso em: 3 jun. 2025.
url https://hdl.handle.net/20.500.12733/1651925
identifier_str_mv SILVA, Renato Moraes; YAMAKAMI, Akebo. MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube. ISYS: revista brasileira de sistemas de informação. Porto Alegre, RS : Sociedade Brasileira de Computação, 2017.. Vol. 10, no. 3 (2017), p. 49-73. Disponível em: https://hdl.handle.net/20.500.12733/1651925. Acesso em: 3 jun. 2025.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/1190114
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório da Produção Científica e Intelectual da Unicamp
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Repositório da Produção Científica e Intelectual da Unicamp
collection Repositório da Produção Científica e Intelectual da Unicamp
repository.name.fl_str_mv Repositório da Produção Científica e Intelectual da Unicamp - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv reposip@unicamp.br
_version_ 1847222335652757504