[en] IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48222&idi=2
http://doi.org/10.17771/PUCRio.acad.48222
Resumo: [pt] As proteínas são macromoléculas biológicas compostas por cadeias de aminoácidos, presentes em praticamente todos os processos celulares, sendo essenciais para o correto funcionamento do organismo humano. Existem diversos estudos em torno do proteoma humano a fim de se identificar quais são as funções de cada proteína nas diferentes células, tecidos e órgãos do corpo humano. A classificação destas proteínas em diferentes formas, como por exemplo a localização subcelular, é importante para diversas aplicações da biomedicina. Com o avanço das tecnologias para obtenção de imagens das proteínas, tem-se que hoje estas são geradas em grande volume e mais rapidamente do que é possível classificá-las manualmente, o que torna importante o desenvolvimento de um classificador automático capaz de realizar esta classificação de maneira eficaz. Dessa forma, esta dissertação buscou desenvolver algoritmos capazes de realizar a classificação automática de padrões mistos de localização subcelular de proteínas, por meio do uso de técnicas de Deep Learning. Inicialmente, fez-se uma revisão da literatura em torno de redes neurais, Deep Learning e SVMs, e utilizou-se o banco de dados, publicamente disponíve, de imagens de células do Human Protein Atlas, para treinamento dos algoritmos de aprendizagem supervisionada. Diversos modelos foram desenvolvidos e avaliados, visando identificar aquele com melhor desempenho na tarefa de classificação. Ao longo do trabalho foram desenvolvidas redes neurais artificiais convolucionais de topologia LeNet, ResNet e um modelo híbrido ResNet-SVM, tendo sido treinadas ao todo 81 redes neurais diferentes, a fim de se identificar o melhor conjunto de hiper-parâmetros. As análises efetuadas permitiram concluir que a rede de melhor desempenho foi uma variante da topologia ResNet, que obteve em suas métricas de desempenho uma acurácia de 0,94 e uma pontuação F1 de 0,44 ao se avaliar o comportamento da rede frente ao conjunto de teste. Os resultados obtidos pela diferentes topologias analisadas foram detalhadamente avaliados e, com base nos resultados alcançados, foram sugeridos trabalhos futuros baseados em possíveis melhorias para as redes de melhor desempenho.