IA explicável aplicada para identificar genes influentes na classificação do câncer por meio de dados de expressão gênica de RNA-Seq

Título: IA explicável aplicada para identificar genes influentes na classificação do câncer por meio de dados de expressão gênica de RNA-Seq

Autores: Karolayne S. Azevedo ,Luísa C. de Souza, Matheus G. S. Dalmolin e Marcelo A. C. Fernandes

Resumo: Este artigo faz uso de tres técnicas de aprendizagem de máquina ( Machine Learnig – ML) para classificar os cinco tipos de cancer mais recorrentes em mulheres, a partir de dados de expressão g enica de RNA-Seq. Os desafios incluem: alta dimensionalidade do conjunto de dados e a falta de transparência dos modelos de ML. Para mitigar esses problemas, foi utilizado a tecnica SHAP ( SHapley Additive exPlanations) que e uma tecnica de inteligência artificial explicável ( Explainable artificial intelligence – XAI) utilizada para compreender como esses modelos tomam decisões podendo ser usada como uma estratégia para a seleção de recursos. Como entrada, foram utilizadas 2.105 amostras, sendo 421 amostras referentes a cada tumor, processadas pelos modelos Arvore de Decisão ( Decision Tree- DT), Floresta Aleatoria ( Random Forest-RF) e Aumento de Gradiente (ExtremoeXtreme Gradient Boosting-XGB) treinadas e validadas por meio da tecnica de validação cruzada. Os modelos RF, DT e XGB alcançaram precisões de 99, 40%, 97, 60% e 99, 34%. Posteriormente, a tecnica SHAP foi utilizada para obter uma lista de recursos visando compreender quais características influenciaram nas tomadas de decisões dos modelos e consequentemente, nos resultados de predição dos cinco tumores. 122, 90 e 11 genes foram obtidos nos modelos RF, XGB e DT, totalizando 223 resultando em 194 genes unicos.

Palavras-chave: Explainable AI, machine learning, feature selection, RNA-Seq, cancer, SHAP, gene expression

Páginas: 8

Código DOI: 10.21528/CBIC2023-096

Artigo em pdf: CBIC_2023_paper096.pdf

Arquivo BibTeX: CBIC_2023_096.bib