Uso de aprendizado de máquina para classificação de risco de acidentes em rodovias.

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: AMORIM, Brunna de Sousa Pereira.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/7340
Resumo: Soluções para identificação dos fatores que influenciam o acontecimento de acidentes em rodovias e a identificação de trechos de risco estão sendo estudados e aplicados por pesquisadores e governos de todo o mundo, a fim de encontrar uma solução que possa diminuir o número de tais acidentes. No entanto, o estudo de acidentes em rodovias depende do local onde o mesmo acontece. Destarte, esta pesquisa faz uso de técnicas de aprendizado de máquina supervisionado e aprendizado de máquina automatizado com o uso de diferentes características para analisar seu impacto na tarefa de predição do risco de acidentes graves ou não-graves em trechos de rodovias brasileiras, a fim de otimizar o desempenho e a performance dos classificadores. Os dados de acidentes foram pré-processados, analisados e técnicas de seleção de atributos foram empregadas, resultando em uma base com informações sobre o dia da semana, o turno do dia em que o acidente aconteceu, o tipo da pista, o traçado da via, o sentido da rodovia, a condição meteorológica no momento do acidente e o tipo do acidente. Diferentes modelos de aprendizado de máquina foram treinados e avaliados em quatro cenários diferentes: o cenário A utiliza uma base de dados desbalanceada com o atributo “Frequência de Acidentes”, enquanto o cenário B consiste na base de dados desbalanceada sem tal atributo; o cenário C faz uso da base de dados balanceada com o atributo “Frequência de Acidentes” e o cenário D utiliza a base de dados balanceada sem este atributo. A avaliação experimental ocorreu com o emprego das métricas acurácia, precisão, revocação e medida F. Os resultados dos cenários A e B não foram relevantes ao estudo, uma vez que os classificadores não convergiram, classificando os dados em apenas uma classe: não-grave. O melhor resultado para o cenário C foi a Rede Neural MLP, que obteve 85% de acurácia, 87% de precisão, 85% de revocação e 84% de medida F. Já para o cenário D, os melhores resultados foram combinações de dois modelos diferentes: Random Forest+BernoulliNB e Logistic Regression+ExtraTreesClassifier, ambos com 84,58% de acurácia, 88,14% de precisão, 84,58% de revocação e 84,06% medida F.