Análise de Técnicas de Aumento de Dados para Processamento de Linguagem Natural

Título: Análise de Técnicas de Aumento de Dados para Processamento de Linguagem Natural

Autores: Deivid Gomes Silva, Andre Luiz Carvalho Ottoni

Resumo: O estudo do processamento de linguagem natural (PLN) e essencial para a interação humano-computador do futuro, pois fornece aos computadores a capacidade de compreender a Linguagem Natural. Entretanto, ha uma escassez de pesquisas científicas, especialmente voltadas para a língua portuguesa, que abordem qualitativamente as técnicas de aumento de dados para PLN. Dessa forma, os objetivos deste trabalho são listar e descrever técnicas de aumento de dados para o processamento de linguagem natural e entender o impacto dessas técnicas em dois sistemas de conversação. Para isso, a metodologia proposta nesse trabalho abordou as seguintes etapas: uma revisão de literatura em artigos cient íficos relevantes sobre a tematica; a implementação de dois sistemas de conversação com redes neurais treinadas nos cenários com aumento de dados e sem aumento de dados. Nos resultados, com a aplicação das técnicas de EDA e BackTranslation, obteve-se 94,43% e 92,14% de acurácia com os dados aumentados a partir do primeiro dataset e 86,92% de acurácia com os dados aumentados a partir do segundo dataset, Além de melhorias gerais nas métricas de precisão e recall. Concluiu-se que as técnicas abordadas geram melhoria de desempenho satisfatoria e importante diversificação dos textos de treino

Palavras-chave: Processamento de linguagem natural; Data augmentation; Sistema de conversação; Redes neurais artificiais

Páginas: 7

Código DOI: 10.21528/CBIC2023-057

Artigo em pdf: CBIC_2023_paper057.pdf

Arquivo BibTeX: CBIC_2023_057.bib