Algoritmos de Aprendizagem Supervisionada com Conjuntos de Dados Desbalanceados para Classificação de Requisitos Não-Funcionais

Título: Algoritmos de Aprendizagem Supervisionada com Conjuntos de Dados Desbalanceados para Classificação de Requisitos Não-Funcionais

Autores: Karolayne Teixeira da Silva, Geovane Miguel da Silva, Giulia Falcão de Melo F. Cavalcanti, Matheus Barreto Lins Marinho and Francisco Madeiro

Resumo:
Algoritmos de Machine Learning aliados com técnicas de Processamento de Linguagem Natural (PLN) para classificação textual ainda são uma ferramenta importante e de grande ascensão na atualidade. A aplicação dessas técnicas na Engenharia de Software pode evitar eventuais falhas humanas e garantir maior precisão e agilidade na classificação de requisitos de software. Porém, o desempenho das abordagens de Aprendizagem de Máquina conhecidas atualmente, é afetado quando existe desbalanceamento entre as classes em conjuntos de dados. Na tentativa de minimizar os impactos deste problema, algumas técnicas de reamostragem de dados podem ser aplicadas. Para investigar os efeitos da reamostragem em bases desbalanceadas, cinco dos métodos de subamostragem, sobre-amostragem e também a combinação de ambos, conhecidos no estado da arte, são aplicados ao conjunto de dados PROMISE_exp e, os desempenhos de sete algoritmos de aprendizagem de máquina supervisionada para a classificação de 11 subcategorias de Requisitos Não-Funcionais, são avaliados em um cenário de simulação envolvendo seis experimentos, sendo cinco deles com o corpus modificado por reamostragem e um aplicando apenas as técnicas de PLN para fins comparativos. Os resultados obtidos apontam que as técnicas de sobre-amostragem, no geral, melhoram o desempenho da maioria dos algoritmos avaliados, tendo como destaque o Extra Trees que obteve uma melhoria de F1 em média 7% no ADASYN e o Multilayer Perceptron em 5% de recall quando aplicado ao conjunto de dados sobre-amostrado com SMOTE-Borderline.

Palavras-chave:
machine learning, requisitos não-funcionais, classificação, desbalanceamento.

Páginas: 7

Código DOI: 10.21528/CBIC2021-125

Artigo em pdf: CBIC_2021_paper_125.pdf

Arquivo BibTeX: CBIC_2021_125.bib