Los ‘deepfakes’ de voz engañan incluso cuando se prepara a la muchedumbre para detectarlos

En 2019, el director de una empresa británica fue víctima de una estafa a posteriori de acoger un ficticio mensaje de voz de su directivo en que pedía la transferencia de 220.000 euros a un proveedor. Un año a posteriori, un directivo de mesa en Hong Kong recibió una señal telefónica de cualquiera que le sonaba hogareño. Basado en su relación existente, el banquero transfirió 400.000 dólares hasta que se dio cuenta de que poco estaba mal. Estos son solo ejemplos aislados, pero cada vez más frecuentes. Los dos casos involucran el uso de tecnología deepfake para clonar las voces, una forma extremadamente sofisticada de manipular un contenido. Identificarla es un desafío significativo que se volverá cada vez más complicado a medida que la inteligencia químico avanza rápidamente. Y no hay buenas parte. Mientras algunas herramientas computacionales pueden detectarlas con cierto naturaleza de precisión, las voces falsas engañan a los humanos, incluso cuando las personas se entrenan.

Un estudio realizado con 529 personas, que se publica hoy en Plos One, demuestra que las habilidades humanas son poco eficaces a la hora de encuadrar sin un mensaje de voz es ficticio o real. Los participantes fallaron una de cada cuatro veces que intentaron detectar correctamente estos deepfakes de voz y los esfuerzos para capacitarlos tuvieron mercancía mínimos. La fracción del conjunto recibió un entrenamiento previo, donde podían escuchar cinco ejemplos de voz sintetizada. A pesar de ello, la alivio fue tan solo del 3% en comparación al otro.

Los investigadores del University College London, en Reino Unido, querían encima entender si el contienda era más liviana o difícil según las características de diferentes idiomas, por lo cual condujeron las pruebas en inglés y mandarín. Los hallazgos sugieren que las capacidades son equivalentes y entreambos públicos se basaron en atributos similares a la hora de encuadrar la autenticidad de los mensajes, como la ciudadanía y si sonaba robótico. “Tanto los participantes de palabra inglesa como los de mandarín mencionaron comúnmente las pronunciaciones incorrectas y las entonaciones inusuales en los clips de sonido al tomar decisiones”, explica Kimberly Mai, autora principal del estudio.

Más subjetivo que lo visual

Curiosamente, los participantes mencionaban las mismas características, independientemente de si la respuesta era correcta o no. Mai explica que esto se debe a la subjetividad que implica un audio. A diferencia de la detección de deepfakes visuales, donde se pueden ver objetos y escenarios para resolver la autenticidad, la naturaleza auditiva del discurso hace que las percepciones sean más subjetivas. “Cuando se ven potenciales personas falsas, se puede contar el número de dedos en sus manos o si sus accesorios coinciden”, dice la investigadora postdoctoral de la universidad británica.

Para comparar la capacidad humana con la tecnológica, los investigadores condujeron la misma prueba igualmente con dos detectores automáticos. El primero fue un software entrenado con una pulvínulo de datos ajena al estudio, que alcanzó el 75% de asertividad, número similar a las respuestas humanas. El segundo, entrenado con la lectura flamante y sintetizada de la voz, pudo identificar la naturaleza de los audios con 100% de precisión. Según subraya Mai, se da un mejor desempeño porque los programas avanzados son capaces de identificar las sutilezas de la acústica, lo que no puede hacer una persona.

Los sonidos complejos, como el palabra humana, contienen una mezcla de diferentes frecuencias, que es la cantidad de veces que una onda sonora se repite en un segundo. “Los detectores automáticos examinan miles de ejemplos de voz durante su grado de entrenamiento. A través de este proceso, pueden ilustrarse sobre peculiaridades en niveles específicos de frecuencia e irregularidades en el ritmo. Los humanos son incapaces de descomponer los sonidos de esta forma”, sostiene la investigadora.

Si perfectamente los detectores automatizados han demostrado ser más efectivos que los humanos en esta tarea, igualmente tienen limitaciones. Primero, no son accesibles para el uso ordinario. Adicionalmente, su rendimiento disminuye cuando hay cambios en el audio de prueba o en entornos ruidosos. Pero el viejo desafío es que sean capaces de compartir los avances en materia de inteligencia químico generativa, puesto que se producen contenidos sintetizados cada vez más realistas y de forma más rápida. Si antaño eran necesarias horas de disco para entrenar un software, ahora se hace en unos pocos segundos, por ejemplo.

Fernando Cucchietti, diestro superficial al estudio, subraya que los resultados presentados tienen algunas limitaciones, hexaedro que las condiciones del los experimentos “son muy de laboratorio” y no traducen las amenazas cotidianas de este tipo de tecnología. “No son realistas para situaciones donde los deepfakes puede ser problemáticos, por ejemplo, si conoces a la persona que están imitando”, opina el responsable del conjunto de Examen y Visualización de datos del Barcelona Supercomputing Centre en declaraciones al Science Media Centre España. Pese a ello, Cucchietti subraya que las conclusiones se asemejan a otros estudios similares, y por tratarse de un entorno congruo controlado, “los resultados están menos afectados por otros factores, por ejemplo, prejuicios o sesgos previos, como en el caso de los estudios de desinformación”.

Evitar las estafas

En el plano individual, las personas son poco fiables para detectar deepfakes de voz. Sin bloqueo, los resultados de la investigación muestran que al agrupar las opiniones de más individuos y tomar una valentía basada en una votación mayoritaria, hay una alivio en la detección. Kimberly Mai recomienda: “Si escuchas un clip de audio del que no estás seguro porque el contenido parece inusual, por ejemplo, si implica una solicitud de transferir una gran cantidad de capital, es una buena idea discutirlo con otras personas y corroborar la fuente”.

Mai sugiere que la ruta para mejorar los detectores automatizados es hacerlos más robustos delante las diferencias en el audio de prueba. Según dice, su equipo está trabajando para adaptar modelos básicos que han funcionado en otros campos, como el texto y las imágenes. “Donado que esos modelos utilizan grandes cantidades de datos para el entrenamiento, es de esperar que generalicen mejor las variaciones en los clips de sonido de prueba”, subraya. Adicionalmente, opina que las instituciones tienen la obligación de tomar partido. “Deben priorizar la implementación de otras estrategias, como regulaciones y políticas, para mitigar los riesgos derivados de los deepfakes de voz”, argumenta.

Puedes seguir a EL PAÍS Tecnología en Facebook y Twitter o apuntarte aquí para acoger nuestra newsletter semanal.

Creditos a Emanoelle Santos

Fuente

Los ‘deepfakes’ de voz engañan incluso cuando se prepara a la muchedumbre para detectarlos | Tecnología

Más subjetivo que lo visual

Evitar las estafas

Leave a comment Cancelar la respuesta

You May Also Like

Google caído: los servicios del buscador, inutilizados durante una hora | Tecnología

Un nuevo estudio pone en duda que Sudáfrica sea el origen de la humanidad