Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Almeida, Lucas Coelho de |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://repositorio.unb.br/handle/10482/46510
|
Resumo: |
A digitalização das relações e da informação têm aumentado a capacidade do ser humano de produzir dados de forma exponencial. Contudo, na mesma taxa em que novos dados são criados, é cada vez mais necessário também compreender e garimpar grandes bases de dados, inclusive sem qualquer estrutura ou formatação e com propósitos diversos. Nesse contexto, o uso de técnicas de indexação de dados usando motores de busca (do inglês Search Engines) e de interpretação de conjuntos de dados com o objetivo de classificá-los e categorizá-los se mostra indispensável para cenários de Big Data e Data Lake, em que a informação pode vir de diversas fontes com características técnicas e semânticas diferentes, exigindo classificações multi-classe e técnicas de processamento de linguagem natural, comumente designadas por técnicas de NLP (do inglês Natural Language Processing). Adicionalmente, é preciso entender se as ferramentas de classificação têm viés e se os resultados são úteis e condizentes com o esperado, especialmente em contextos de investigação de crimes digitais. Esse é o problema da transparência da tomada de decisão, ou seja, da clara e/ou legível representação dos parâmetros que levaram a máquina a uma determinada decisão/classificação. Um sistema de investigação ideal, portanto, deveria ser capaz de indexar grandes bases de dados, entender a semântica e ser passível de adaptação/aprendizagem para atuar em diferentes cenários, e ao final do processo, ainda fornecer resultados enriquecidos com os parâmetros que levaram a máquina a tomar determinadas decisões para posterior auditoria da transparência no processo. Portanto, esta dissertação tem como objetivo propor uma arquitetura fim a fim de um motor de busca que indexe e use interpretações metasemânticas baseadas em técnicas de processamento de linguagem natural em dados oriundos de páginas Web, de forma a prover, também, exemplos de parâmetros similares às classificações derivadas das amostras. O prefixo ”meta” no termo ”metasemântica” se refere a um conjunto de técnicas de classificação, predição e enriquecimento de dados aplicados para emular o processo de indexação semântica, porém preservando a auditabilidade do processo. Para efeito de validação da proposta, foram criadas amostras de páginas Web e utilizou-se bases de dados oficiais para treinamentos de instâncias de aprendizado de máquina para simulação de contextos reais de aplicação do projeto. Como resultado, a validação mostra como o motor de busca proposto permite o armazenamento e processamento de dados sem formatação originários de páginas Web e aumenta a velocidade e objetividade com que investigações passam a ser realizadas e auditadas em contextos de processamento de linguagem natural, especialmente relevantes para contextos de crimes digitais. |