Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving

Bibliographic Details
Main Author: Melotti, Gledson
Publication Date: 2023
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: https://hdl.handle.net/10316/114438
Summary: Tese de Doutoramento em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
id RCAP_c36ac6f2a64f62cafe91de43ed9c7aea
oai_identifier_str oai:estudogeral.uc.pt:10316/114438
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Reducing Overconfident Predictions in Multimodality Perception for Autonomous DrivingReduzindo Predições Com Excesso de Confiança na Percepção de Multimodalidade Para Condução AutónomaPredições excesso confiançaArquiteturas de redes neuraisSistemas de percepçãoSistemas de condução autónomaDetecção de objetosOverconfident predictionsDeep neural network architectuPerception systemsAutonomous driving systemsObject detectionCiências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informáticaTese de Doutoramento em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e TecnologiaIn the last recent years, machine learning techniques have occupied a great space in order to solve problems in the areas related to perception systems applied to autonomous driving and advanced driver-assistance systems, such as: road users detection, traffic signal recognition, road detection, multiple object tracking, lane detection, scene understanding. In this way, a large number of techniques have been developed to cope with problems belonging to sensory perception field. Currently, deep network is the state-of-the-art for object recognition, begin SoftMax and SigMoid functions as prediction layers. Such layers often produce overconfidence predictions rather than proper probabilistic scores, which can thus harm the decision-making of “critical” perception systems applied in autonomous driving and robotics. Given this, we propose a probabilistic approach based on distributions calculated out of the Logit layer scores of pre-trained networks which are then used to constitute new decision layers based on Maximum Likelihood (ML) and Maximum a-Posteriori (MAP) inference. We demonstrate that the hereafter called ML and MAP functions are more suitable for probabilistic interpretations than SoftMax and SigMoid-based predictions for object recognition, where our approach shows promising performance compared to the usual SoftMax and SigMoid functions, with the benefit of enabling interpretable probabilistic predictions. Another advantage of the approach introduced in this thesis is that the so-called ML and MAP functions can be implemented in existing trained networks, that is, the approach benefits from the output of the Logit layer of pre-trained networks. Thus, there is no need to carry out a new training phase since the ML and MAP functions are used in the test/prediction phase. To validate our methodology, we explored distinct sensor modalities via RGB images and LiDARs (3D point clouds, range-view and reflectance- view) data from the KITTI dataset. The range-view and reflectance-view modalities were obtained by projecting the range/reflectance data to the 2D image-plane and consequently upsampling the projected points. The results achieved by the proposed approach were presented considering the individual modalities and through the early and late fusion strategies.Nos últimos anos, as técnicas de aprendizagem de máquina têm ocupado um grande espaço para solucionar problemas nas áreas relacionadas com sistemas de perceção aplicados à direção autónoma e sistemas avançados de assistência ao motorista, tais como: detecção de utilizadores de vias, reconhecimento de sinais de trânsito, deteção de vias, rastreamento de múltiplos objetos, deteção de pista, compreensão de cena. Desta forma, um grande número de técnicas tem sido desenvolvido para lidar com problemas pertencentes ao campo da perceção sensorial. Atualmente, deep network é o estado da arte para reconhecimento de objetos, iniciando funções SoftMax e SigMoid como camadas de previsão. Essas camadas geralmente produzem previsões de excesso de confiança em vez de pontuações probabilísticas adequadas, o que pode prejudicar a tomada de decisões de sistemas de perceção “críticos” aplicados em direção autónoma e robótica. Diante disso, propomos uma abordagem probabilística baseada em distribuições calculadas a partir dos scores (pontuações da saída) da camada Logit de redes pré-treinadas que são então utilizadas para constituir novas camadas de decisão baseadas na inferência de Máxima Verossimilhança (ML) e Máxima a-Posteriori (MAP). Demonstramos que as funções ML e MAP daqui em diante são mais adequadas para interpretações probabilísticas do que previsões baseadas em SoftMax e SigMoid para reconhecimento de objetos, onde a nossa abordagem mostra um desempenho promissor em comparação com as funções usuais de SoftMax e SigMoid, com o benefício de permitir previsões probabilísticas interpretáveis. Outra vantagem da abordagem apresentada nesta tese é que as chamadas funções ML e MAP podem ser implementadas em redes já treinadas, ou seja, a abordagem beneficia da saída da camada Logit de redes pré-treinadas. Assim, não há necessidade de realizar uma nova fase de treino, uma vez que as funções ML e MAP são utilizadas na fase de teste/previsão. Para validar a nossa metodologia, exploramos modalidades distintas de sensores por meio de imagens RGB e dados LiDARs (3D point clouds, range-view e reflectance-view) do conjunto de dados KITTI. As modalidades range-view e reflectance-view foram obtidas projetando os dados de alcance/refletância para o plano de imagem 2D e, consequentemente, upsampling dos pontos projetados. Os resultados alcançados pela abordagem proposta foram apresentados considerando as modalidades individuais e por meio das estratégias de fusão “early” e “late”.2023-04-26doctoral thesisinfo:eu-repo/semantics/publishedVersionhttps://hdl.handle.net/10316/114438https://hdl.handle.net/10316/114438TID:101707134engMelotti, Gledsoninfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-03-27T17:45:21Zoai:estudogeral.uc.pt:10316/114438Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:07:34.850781Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
Reduzindo Predições Com Excesso de Confiança na Percepção de Multimodalidade Para Condução Autónoma
title Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
spellingShingle Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
Melotti, Gledson
Predições excesso confiança
Arquiteturas de redes neurais
Sistemas de percepção
Sistemas de condução autónoma
Detecção de objetos
Overconfident predictions
Deep neural network architectu
Perception systems
Autonomous driving systems
Object detection
Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
title_short Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
title_full Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
title_fullStr Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
title_full_unstemmed Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
title_sort Reducing Overconfident Predictions in Multimodality Perception for Autonomous Driving
author Melotti, Gledson
author_facet Melotti, Gledson
author_role author
dc.contributor.author.fl_str_mv Melotti, Gledson
dc.subject.por.fl_str_mv Predições excesso confiança
Arquiteturas de redes neurais
Sistemas de percepção
Sistemas de condução autónoma
Detecção de objetos
Overconfident predictions
Deep neural network architectu
Perception systems
Autonomous driving systems
Object detection
Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
topic Predições excesso confiança
Arquiteturas de redes neurais
Sistemas de percepção
Sistemas de condução autónoma
Detecção de objetos
Overconfident predictions
Deep neural network architectu
Perception systems
Autonomous driving systems
Object detection
Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
description Tese de Doutoramento em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
publishDate 2023
dc.date.none.fl_str_mv 2023-04-26
dc.type.driver.fl_str_mv doctoral thesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10316/114438
https://hdl.handle.net/10316/114438
TID:101707134
url https://hdl.handle.net/10316/114438
identifier_str_mv TID:101707134
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602584038866944