Título: Estudo da variabilidade em testes na verificação de locutores com redes neurais profundas
Autores: Victor Costa Beraldo and Murilo Bellezoni Loiola.
Resumo:
A verificação automática de locutores revela-se de grande importância para segurança na autenticação de pessoas. Concebida através de dados de voz, seu papel como ferramenta de autenticação tem sido feito, com melhores desempenhos, por meio do aprendizado profundo de redes neurais utilizando d-vectors. Entre seus benefícios está a desnecessidade de treinar novos modelos para verificar locutores inexistentes nas bases de treinamento. Neste contexto, notou-se a necessidade de comparar diferentes modelos baseados nos d-vectors, em situações onde temos dados para treinamento que não foram obtidos pela mesma origem que as possíveis bases de teste, representando um problema real devido a diferentes fontes de variabilidade nos dados de voz, como diferentes idiomas, áudios gravados com dispositivos diferentes e ruídos de fundo diferentes, onde necessita-se escolher um modelo, porém não há dados de treinamento e teste com as mesmas características. As comparações foram realizadas entre os modelos SincNet, GE2E, redes ResNet Triplet Loss e o modelos proposto neste trabalho SincNet + GE2E, cujo desempenho supera o a rede GE2E original, porém até então não superou o desempenho da SincNet original.
Palavras-chave:
Redes Neurais, D-Vectors, Verificação de Locutores.
Páginas: 8
Código DOI: 10.21528/CBIC2021-42
Artigo em pdf: CBIC_2021_paper_42.pdf
Arquivo BibTeX: CBIC_2021_42.bib