Detalhes bibliográficos
Ano de defesa: |
2019 |
Autor(a) principal: |
Côrtes, Eduardo Gabriel |
Orientador(a): |
Barone, Dante Augusto Couto |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://hdl.handle.net/10183/194555
|
Resumo: |
Sistemas de Question Answering é um campo de pesquisa das áreas de Recuperação de Informações e Processamento de Linguagem Natural que propõe, de forma autônoma, responder perguntas feitas por humanos em linguagem natural. Uma das principais etapas desses sistemas é a classificação de perguntas, em que o sistema busca identificar o tipo de resposta que a pergunta se refere, facilitando a localização de informações específicas em sua base de dados. Comumente, modelos supervisionados de aprendizado de máquina são empregados nesta tarefa, em que o texto da pergunta é representado através de um vetor de características, como Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF) ou word embeddings. Entretanto, a qualidade dos resultados produzidos por esses modelos são dependentes da existência de um grande conjunto de dados anotados para o treinamento, como também recursos computacionais e linguísticos externos. Esses recursos muitas vezes não estão acessíveis, devido a intensos esforços manuais na anotação de conjunto de dados ou pela falta de disponibilidade de recursos de qualidade para línguas não inglesa. Assim, este trabalho propõe uma abordagem híbrida para representação de texto que combina TF-IDF e Word2vec na tarefa de classificação de perguntas para sistemas de QA. Essa abordagem busca prover o tipo de resposta para perguntas em texto, utilizando diferentes tamanhos de conjuntos de treinamento com também sem a utilização de recursos computacionais e linguísticos complexos de serem adquiridos. Os experimentos realizados utilizando as coleções Chave e UIUC traduzida para o português, e variando o tamanho do conjunto de dados para treinamento, mostram estatisticamente que o modelo proposto atinge resultados satisfatório aplicado em diferentes modelos supervisionados. |