MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube
| Main Author: | |
|---|---|
| Publication Date: | 2017 |
| Other Authors: | |
| Format: | Article |
| Language: | por |
| Source: | Repositório da Produção Científica e Intelectual da Unicamp |
| Download full: | https://hdl.handle.net/20.500.12733/1651925 |
Summary: | Agradecimentos: Os autores sao gratos à Fapesp, CAPES (Proc. 1709642) e CNPq (Proc. 141089/2013-0) pelo apoio financeiro concedido ao desenvolvimento desse projeto |
| id |
CAMP_1b9c29a391fc7d22b3b0b8ef4ff55705 |
|---|---|
| oai_identifier_str |
oai:https://www.repositorio.unicamp.br/:1190114 |
| network_acronym_str |
CAMP |
| network_name_str |
Repositório da Produção Científica e Intelectual da Unicamp |
| repository_id_str |
|
| spelling |
MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTubeYoutube (Recurso eletrônico)YouTube (Electronic resource)MDLTextArtigo originalAgradecimentos: Os autores sao gratos à Fapesp, CAPES (Proc. 1709642) e CNPq (Proc. 141089/2013-0) pelo apoio financeiro concedido ao desenvolvimento desse projetoMuitos usuários do YouTube produzem conteúdo regularmente e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso vem despertando a atenção de usuários mal-intencionados, que propagam comentários indesejados para se autopromoverem ou para disseminar links maliciosos. Neste cenário, métodos tradicionais de categorização de texto podem sofrer limitações devido às características inerentes ao problema: (1) os comentários costumam ser curtos e mal redigidos e (2) o problema de classificação é naturalmente online. Este artigo avalia um método de classificação baseado no princípio da descrição mais simples e compara os resultados com os de métodos tradicionais de aprendizado online. Também é proposta uma técnica ensemble, que combina os métodos de classificação com diferentes técnicas de processamento de linguagem natural. Os experimentos foram cuidadosamente realizados e a análise estatística dos resultados indica que a técnica proposta obteve desempenho superior ao obtSeveral YouTube users regularly produce video content and make thistask their main livelihood activity. However, such success is drawing the at-tention of malicious users which propagate undesired comments, looking forself-promotion or disseminating malicious links. The available text categoriza-tion methods commonly used to address this problem suffer from the followinginherent characteristics: (1) the comments are usually short and poorly writtenand (2) the classification problem is naturally online. In this paper, we evalu-ate a classification method based on the minimum description length principleand compare its results with those of well-established online learning techni-ques. We also propose an ensemble approach which combines the classificationmethods with different natural language processing techniques. The performedexperiments were carefully carried out and statistical analysis of the results in-dicates that the proposed technique was superior than when only the originalcomments were employedCOORDENAÇÃO DE APERFEIÇOAMENTO DE PESSOAL DE NÍVEL SUPERIOR - CAPESCONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO - CNPQFUNDAÇÃO DE AMPARO À PESQUISA DO ESTADO DE SÃO PAULO - FAPESPAbertoUNIVERSIDADE ESTADUAL DE CAMPINASSilva, Renato Moraes, 1988-Yamakami, Akebo, 1947-2017info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://hdl.handle.net/20.500.12733/1651925SILVA, Renato Moraes; YAMAKAMI, Akebo. MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube. ISYS: revista brasileira de sistemas de informação. Porto Alegre, RS : Sociedade Brasileira de Computação, 2017.. Vol. 10, no. 3 (2017), p. 49-73. Disponível em: https://hdl.handle.net/20.500.12733/1651925. Acesso em: 3 jun. 2025.https://repositorio.unicamp.br/acervo/detalhe/1190114porreponame:Repositório da Produção Científica e Intelectual da Unicampinstname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2023-10-18T12:41:34Zoai:https://www.repositorio.unicamp.br/:1190114Repositório InstitucionalPUBhttp://repositorio.unicamp.br/oai/requestreposip@unicamp.bropendoar:2023-10-18T12:41:34Repositório da Produção Científica e Intelectual da Unicamp - Universidade Estadual de Campinas (UNICAMP)false |
| dc.title.none.fl_str_mv |
MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube |
| title |
MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube |
| spellingShingle |
MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube Silva, Renato Moraes, 1988- Youtube (Recurso eletrônico) YouTube (Electronic resource) MDLText Artigo original |
| title_short |
MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube |
| title_full |
MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube |
| title_fullStr |
MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube |
| title_full_unstemmed |
MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube |
| title_sort |
MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube |
| author |
Silva, Renato Moraes, 1988- |
| author_facet |
Silva, Renato Moraes, 1988- Yamakami, Akebo, 1947- |
| author_role |
author |
| author2 |
Yamakami, Akebo, 1947- |
| author2_role |
author |
| dc.contributor.none.fl_str_mv |
UNIVERSIDADE ESTADUAL DE CAMPINAS |
| dc.contributor.author.fl_str_mv |
Silva, Renato Moraes, 1988- Yamakami, Akebo, 1947- |
| dc.subject.por.fl_str_mv |
Youtube (Recurso eletrônico) YouTube (Electronic resource) MDLText Artigo original |
| topic |
Youtube (Recurso eletrônico) YouTube (Electronic resource) MDLText Artigo original |
| description |
Agradecimentos: Os autores sao gratos à Fapesp, CAPES (Proc. 1709642) e CNPq (Proc. 141089/2013-0) pelo apoio financeiro concedido ao desenvolvimento desse projeto |
| publishDate |
2017 |
| dc.date.none.fl_str_mv |
2017 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
| format |
article |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.12733/1651925 SILVA, Renato Moraes; YAMAKAMI, Akebo. MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube. ISYS: revista brasileira de sistemas de informação. Porto Alegre, RS : Sociedade Brasileira de Computação, 2017.. Vol. 10, no. 3 (2017), p. 49-73. Disponível em: https://hdl.handle.net/20.500.12733/1651925. Acesso em: 3 jun. 2025. |
| url |
https://hdl.handle.net/20.500.12733/1651925 |
| identifier_str_mv |
SILVA, Renato Moraes; YAMAKAMI, Akebo. MDLText e indexação semântica aplicados na detecção de spam nos comentários do YouTube. ISYS: revista brasileira de sistemas de informação. Porto Alegre, RS : Sociedade Brasileira de Computação, 2017.. Vol. 10, no. 3 (2017), p. 49-73. Disponível em: https://hdl.handle.net/20.500.12733/1651925. Acesso em: 3 jun. 2025. |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
https://repositorio.unicamp.br/acervo/detalhe/1190114 |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositório da Produção Científica e Intelectual da Unicamp instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
| instname_str |
Universidade Estadual de Campinas (UNICAMP) |
| instacron_str |
UNICAMP |
| institution |
UNICAMP |
| reponame_str |
Repositório da Produção Científica e Intelectual da Unicamp |
| collection |
Repositório da Produção Científica e Intelectual da Unicamp |
| repository.name.fl_str_mv |
Repositório da Produção Científica e Intelectual da Unicamp - Universidade Estadual de Campinas (UNICAMP) |
| repository.mail.fl_str_mv |
reposip@unicamp.br |
| _version_ |
1847222335652757504 |