Fast contextual text recognition with deep convolutional neural networks

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Silva, Sérgio Montazzolli
Orientador(a): Jung, Claudio Rosito
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/201299
Resumo: Neste trabalho são exploradas técnicas de Aprendizagem Profunda aplicadas ao reconhecimento de texto em imagens dado um certo contexto, problema aqui chamado de Reconhecimento de Texto Contextualizado (RTC). Como exemplos de aplicações, podemos citar o Reconhecimento Automático de Placas Veiculares (RAPV) e a Identificação de Atletas por Numeração (IAN). Recentemente, muitas tarefas relacionadas à Visão Computacional tiveram seus resultados aprimorados devido ao surgimento de técnicas de Aprendizagem Profunda. A grande capacidade de reconhecimento destas técnicas permitiu o avanço e surgimento de aplicações como Reconhecimento de Fala, Veículos Autônomos, Colorização de Fotos Monocromáticas, entre outras. No entanto, esse poder de análise traz um custo: redes profundas tipicamente apresentam um grande número de parâmetros, necessitando assim de um grande volume de dados durante o treinamento. Para superar este problema em tarefas onde não existem muitos dados disponíveis, na primeira parte deste trabalho, nós propomos o uso cuidadoso de dados aumentados e a adaptação de modelos rápidos encontrados na literatura. Os resultados obtidos são mostrados no contexto de RAPC, onde demonstramos a capacidade da nossa abordagem de obter resultados no estado-da-arte a uma frequência de 70 imagens por segundo. Indo além, nós percebemos que as bases de dados atuais em RAPC não exploram situações desafiadoras, contendo veículos em ângulos oblíquos, placas distorcidas e com a padronização de múltiplos países ou regiões. Então, como uma segunda parte deste trabalho, nós propomos a criação de uma base de dados contendo todas estas situações juntas, e apresentamos uma nova Rede Neural Convolucional para detectas placas ao mesmo tempo em que regride parâmetros para uma transformação afim de correção da distorção. Esse processo retifica a placa, auxiliando o reconhecimento dos caracteres e permitindo a obtenção de resultados estado-da-arte em várias bases de dados. Finalmente, na última parte, tratamos o problema de IAN. Propomos uma nova rede neural para executar várias tarefas de uma vez, sem necessitar de dados com anotações complexas. Basicamente a rede localiza a placa de identificação, corrige sua distorção, e reconhece todos os dígitos. De modo geral, nossa abordagem necessita apenas de duas informações para o treinamento: região da placa e seu número. Foram obtidos resultados no estado-da-arte durante avaliação na principal base de dados relacionada ao problema.