Sistema de reconhecimento de comandos isolados de voz para aplicação em robótica cirúrgica.

Detalhes bibliográficos
Ano de defesa: 2003
Autor(a) principal: Santos, Eric Tavares Pereira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-22102024-155935/
Resumo: Nas cirurgias minimamente invasivas geralmente utiliza-se um endoscópio para a visualização das estruturas internas do corpo do paciente. Nestes casos, a utilização de um robô para controle de posicionamento da óptica requer o uso de uma interface de comando intuitiva e simples, que permita que o próprio cirurgião tenha controle sobre o equipamento. Um sistema de comandos por voz para controle de posicionamento de endoscópio deve reconhecer os comandos pronunciados em tempo real, além de identificá-los corretamente em praticamente 100% das ocorrências. Neste trabalho foram desenvolvidos e avaliados três algoritmos de reconhecimento de comandos isolados de voz para controle do posicionamento de endoscópio. Dois dos algoritmos têm como base a modelagem autoregressiva pelo método da codificação preditiva linear (LPC), com diferenças na forma de alinhamento temporal dos sinais de voz e utilizando como métrica de distorção espectral a distância euclidiana (LPC-LE) e a distância de Itakura (LPC-DI). O terceiro algoritmo baseia-se na biblioteca de programação comercial IBM SMAPI. Foi também desenvolvido um protocolo de comunicação serial para a integração entre o algoritmo de reconhecimento e o sistema de acionamento do robô. Os algoritmos foram testados utilizando-se 22 comandos de voz gravados, pronunciados por 42 locutores de ambos os sexos. O desempenho dos algoritmos em função dos seus parâmetros foi avaliado utilizando-se treinamento específico para cada locutor (modo dependente de locutor) e sem treinamento para um locutor específico (modo independente de locutor) e utilizando-se vocabulários com e sem ambigüidades fonéticas. O desempenho dos algoritmos LPC foi estudado variando-se a freqüência de amostragem dos sinais de voz e a ordem do modelo LPC. Ambos mostraram-se apropriados para uso no modo dependente de locutor, com identificação correta de comandos em aproximadame 94% das vezes.LPC-LE foi obtido para freqüências entre 3,7 e 7,4 kHz com menor tempo de processamento de aproximadamente 0,18 s. O melhor desempenho do algoritmo LPC-DI foi obtido entre 3,7 e 22,1 kHz, utilizando-se modelo de ordem 10, 16 e 20, com menor tempo de processamento de aproximadamente 1 s. O algoritmo baseado na SMAPI foi avaliado em função do limiar de rejeição, da velocidade de reconhecimento e da relação sinal-ruído dos sinais de voz. Este algoritmo identificou corretamente aproximadamente 93% dos comandos no modo independente de locutor e 98,5% no modo dependente de locutor. O desempenho do algoritmo não é prejudicado por sinais com relação sinal-ruído de até 45 dB, sendo o melhor desempenho obtido para limiar de rejeição zero. O tempo de processamento médio foi de 0,53 s, independentemente da velocidade de reconhecimento utilizada. A presença de ambigüidades fonéticas e espectrais no vocabulário prejudica o desempenho de todos os algoritmos desenvolvidos.