Detecção de Deepfakes: comparação de desempenho de modelos treinados com múltiplas bases de dados públicas

Título: Detecção de Deepfakes: comparação de desempenho de modelos treinados com múltiplas bases de dados públicas

Autores: Eduardo Silva de Freitas, Rogerio Martins Gomes, Bruno André Santos and Natália Cosse Batista.

Resumo:
Avanços na área de inteligência artificial têm permitido que conteúdos audiovisuais falsificados, conhecidos como deepfakes, sejam produzidos com alta qualidade visual. Esses vídeos, que apresentam pessoas agindo de forma supostamente real, podem representar uma ameaça à sociedade quando utilizados de forma maliciosa. Sendo assim, algoritmos de detecção se tornam necessários para que esse conteúdo possa ser detectado e moderado nos meios de difusão. Diversos modelos, propostos na literatura, são capazes de reconhecer características geracionais específicas das deepfakes. No entanto, falham quando submetidos à vídeos oriundos de técnicas de Deepfake posteriores a sua concepção. Sendo assim, este trabalho avalia técnicas de detecção, consideradas o estado da arte, como a arquitetura EfficientNet, e técnicas baseadas em redes neurais clássicas encontradas na literatura, como a ResNet-152. Para isso, modelos de detecção que implementam estas arquiteturas foram treinados por meio de diversas bases de amostras deepfake disponíveis publicamente. As bases selecionadas atendem a critérios baseados na qualidade visual, volume de vídeos e diversidade de métodos de produção empregados. Das soluções propostas, o modelo baseado na rede EfficientNet-B0 obteve as melhores métricas de teste quando avaliado por meio de datasets utilizados em competições, atingindo 80% de acurácia. Observou-se também que a estratégia de utilização de múltiplas bases de amostras foi a melhor abordagem para o problema, visto que os modelos treinados com somente uma base obtiveram um pior desempenho. A rede ResNet-152, treinada com múltiplas bases, apresentou bons resultados na tarefa de detecção de deepfakes, porém seu desempenho foi inferior ao alcançado pelo modelo baseado na arquitetura EfficientNet.

Palavras-chave:
Deepfake, Deep learning, Reconhecimento facial, Visão computacional, Redes convolucionais.

Páginas: 8

Código DOI: 10.21528/CBIC2021-29

Artigo em pdf: CBIC_2021_paper_29.pdf

Arquivo BibTeX: CBIC_2021_29.bib