Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Pereira, Rafael Leinio [UNIFESP] |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Universidade Federal de São Paulo
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.unifesp.br/handle/11600/67320
|
Resumo: |
Embora a cultura orientada por dados e abordagens de Inteligência Artificial sejam empregadas em várias organizações, é sabido que ainda existem muitos desafios na criação de uma operação de dados eficiente. Uma das principais barreiras é obter dados de alta qualidade. Embora mais dados tragam mais oportunidades no contexto de produtos analíticos e de aprendizado de máquina, cobrir essa gama crescente de ativos com verificações de qualidade torna-se um problema real de escalabilidade. Então a grande questão é: como criar um serviço de qualidade de dados eficiente que cubra o maior número possível de conjuntos de dados, não exija muito ajuste manual, possa lidar com escalabilidade e com resultados fáceis de interpretar? Esta dissertação explora como construir uma operação de monitoramento de qualidade de dados baseada em perfis com computação de métricas, otimização de modelos, detecção de anomalias e geração de relatórios com alta explicabilidade. Ao empregar as ferramentas mais recentes para processamento de dados e AutoML alinhadas com padrões modernos de plataforma de dados, foi possível desenvolver um framework fácil de usar para capacitar desenvolvedores e usuários de dados a construir essa solução. Os testes foram realizados considerando dois conjuntos de dados reais de e-commerce comparando os resultados com outro framework comum na literatura. Os resultados mostram que nossa proposta foi capaz de alcançar uma precisão muito melhor, mantendo uma pontuação de recall alta, o que é importante para minimizar falsos alertas de anomalia. |