As vozes da IA são difíceis de detectar, mesmo quando você sabe que pode ser um deepfake

Em 2019, o diretor de uma empresa britânica caiu em um golpe. Ele recebeu uma mensagem de voz falsa de seu gerente pedindo-lhe que transferisse € 220 mil (US$ 240 mil) para um fornecedor. Um ano depois, um gerente de banco em Hong Kong recebeu um telefonema de alguém que lhe parecia familiar. Como eles já tinham um relacionamento comercial, o banqueiro transferiu US$ 400 mil antes de perceber que algo estava errado. Golpes como esses que usam tecnologia de clonagem de voz de inteligência artificial (IA) estão se tornando mais frequentes, e a detecção de vozes falsas ficará mais difícil à medida que a IA melhorar rapidamente, mesmo por pessoas treinadas que usam ferramentas especiais.

Um estudo recente publicado na Plos One envolvendo 529 participantes revelou que os humanos lutam para distinguir com precisão entre mensagens de voz reais e falsas. O estudo descobriu que os participantes falharam 25% das vezes ao tentar detectar deepfakes de voz, e mesmo o treinamento teve impacto mínimo. Metade dos participantes recebeu treinamento prévio ouvindo cinco exemplos de vozes sintetizadas, mas seu desempenho foi apenas 3% melhor que o grupo não treinado.

O estudo realizado por pesquisadores da University College London (Reino Unido) também teve como objetivo entender se o desafio era mais fácil ou mais difícil dependendo das características dos diferentes idiomas, por isso realizaram os testes em inglês e mandarim. As descobertas indicam que ambos os grupos avaliaram igualmente a autenticidade das mensagens. Eles consideraram atributos como naturalidade e falta de voz robótica como fatores importantes. “Tanto os participantes que falam inglês como os que falam mandarim frequentemente citaram pronúncias incorretas e entonações atípicas nos clipes de som como fatores que influenciam seu processo de tomada de decisão”, disse Kimberly Mai, principal autora do estudo.

Os participantes mencionaram as mesmas características, independentemente da precisão da resposta. Isso ocorre porque o áudio é subjetivo. Ao contrário da detecção de deepfakes visuais, onde a autenticidade pode ser julgada pela observação de objetos e fundos, a natureza subjetiva da fala faz com que as percepções variem mais. “Ao olhar para uma imagem potencialmente falsa de uma pessoa, você pode contar o número de dedos ou ver se suas roupas e acessórios combinam”, disse Mai.

Para comparar as capacidades humanas e tecnológicas, os pesquisadores também testaram dois sistemas de detecção automatizados. O primeiro utilizou software treinado em um banco de dados não relacionado, atingindo 75% de precisão, semelhante às respostas humanas. O segundo detector, treinado nas versões de voz original e sintetizada, alcançou 100% de precisão na identificação de áudio falso e real. Mai diz que os programas avançados superam os humanos devido à sua capacidade de reconhecer nuances acústicas sutis, algo que os humanos não conseguem fazer.

Sons complexos, como a fala humana, consistem em várias frequências. Frequência refere-se ao número de vezes que uma onda sonora se repete em um segundo. “Durante a fase de treinamento, os detectores automatizados analisam milhares de amostras de voz e aprendem sobre peculiaridades em níveis de frequência específicos e irregularidades rítmicas que os humanos são incapazes de discernir”, disse Mai.

Os detectores automatizados demonstraram ser mais eficazes que os humanos nesta tarefa, mas também apresentam limitações. Primeiro, eles não estão disponíveis para uso diário. Além disso, o seu desempenho diminui quando os níveis de áudio flutuam e em ambientes ruidosos. Porém, o principal desafio é acompanhar os avanços da inteligência artificial generativa, que produz conteúdos cada vez mais realistas e sintetizados com muito mais rapidez. No passado, treinar um programa para criar deepfakes exigia horas de gravação, mas agora isso pode ser feito em segundos.

Segundo Fernando Cucchietti, especialista na área, os resultados do estudo apresentam algumas limitações. As condições do experimento foram rigorosamente controladas e não representativas dos desafios da vida real apresentados por esta tecnologia. “Eles não são realmente práticos em situações em que deepfakes podem causar problemas, como quando você conhece pessoalmente a pessoa que está sendo imitada”, disse Cuchietti, chefe de análise e visualização de dados do Centro de Supercomputação de Barcelona para o Science Media Center da Espanha. No entanto, Cucchietti salienta que estas descobertas se alinham com outros estudos em ambientes controlados, e “...os resultados são menos influenciados por fatores como preconceitos ou noções preconcebidas, como visto em estudos sobre desinformação”.

As vozes da IA ​​são difíceis de detectar, mesmo quando você sabe que pode ser um deepfake

As vozes da IA são difíceis de detectar, mesmo quando você sabe que pode ser um deepfake