[en] COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION
Ano de defesa: | 2014 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
MAXWELL
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23244&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=23244&idi=2 http://doi.org/10.17771/PUCRio.acad.23244 |
Resumo: | [pt] A tarefa de diarização de locutor surgiu como forma de otimizar o trabalho do homem em recuperar informações sobre áudios, com o objetivo de realizar, por exemplo, indexação de fala e locutor. De fato, realizar a diarização de locutor consiste em, dado uma gravação de ligação telefônica, reunião ou noticiários, deve responder a pergunta Quem falou quando? sem nenhuma informação prévia sobre o áudio. A resposta em questão nos permite saber as referências temporais das atividades de cada locutor participante na gravação. Computacionalmente falando, o processamento da diarização ocorre através de quatro etapas principais: extração de características do sinal, detecção de fala e não fala, segmentação e agrupamento. Neste trabalho realiza-se um estudo sobre a etapa de agrupamento, comparando o desempenho e comprovando problemas de algumas técnicas do estado da arte. Todos os experimento foram executados em uma base controlada, originada do corpus TIMIT, e outra real utilizada no concurso NIST-SRE 2002. |