Investigadores de ciberseguridad revelaron el martes cómo se puede utilizar la inteligencia artificial para clonar la voz de una persona en tiempo real y así lanzar ataques de phishing de voz contra organizaciones desprevenidas.
Investigadores del Grupo NCC comentaron en un blog de la empresa que lanzaron ataques mediante clonación de voz en tiempo real contra organizaciones reales y recuperaron con éxito información sensible y confidencial.
“No solo eso, sino que también hemos demostrado cómo estas técnicas pueden convencer a personas con responsabilidad operativa clave para que realicen acciones en nombre del atacante”, escribieron los investigadores Pablo Alobera, Pablo López y Víctor Lasa.
“En evaluaciones de seguridad que simularon condiciones de ataque reales, pudimos realizar acciones como cambios de dirección de correo electrónico, restablecimiento de contraseñas, etc.”, añadieron.
Al iniciar su proyecto, los investigadores identificaron varios desafíos para lanzar ataques de phishing de voz (vishing) con voces clonadas. Uno de ellos era la tecnología. La gran mayoría de las tecnologías y arquitecturas de deepfake de vanguardia se centraban en inferencias offline, según descubrieron los investigadores.
“Estos sistemas lograron buenos resultados al clonar un fragmento pregrabado de una conversación, pero no pudieron modificar la voz del usuario en tiempo real, un requisito clave para los ataques de vishing”, escribieron.
“Además, muchos de ellos dependían en gran medida de modelos TTS (texto a voz)”, añadieron.
Cómo funciona la clonación en tiempo real.
Señalaron que, con esta tecnología, los atacantes tenían dos alternativas: podían usar un conjunto de frases pregrabadas, lo que presentaría problemas obvios al intentar mantener una conversación en tiempo real, o podían introducir frases en el modelo TTS sobre la marcha, lo que introduciría retrasos antinaturales en las respuestas clonadas.
Los investigadores lograron enrutar la señal del micrófono del atacante a un modulador de voz en tiempo real que utilizaba un modelo de aprendizaje automático (AA) de la voz de una persona. Mientras el atacante hablaba, lo que el objetivo escuchaba era la voz clonada del modelo AA.
Los investigadores también observaron que la señal de audio podía enrutarse directamente a aplicaciones como Microsoft Teams o Google Meet, lo que permitía el uso de voces suplantadas por IA en aplicaciones de mensajería populares durante una llamada de voz en tiempo real.
«En esta prueba de concepto», añadieron, «el número de teléfono de la persona suplantada se falsificó con su consentimiento. Al igual que el vishing tradicional, la suplantación se utiliza para explotar la confianza que la víctima tendrá al ver un identificador de llamada familiar en su dispositivo».
Si bien la tecnología no estaba lo suficientemente desarrollada como para admitir el vishing de voz clonada en tiempo real hasta hace poco, esto ya no es posible. «La realidad actual es que las herramientas y la infraestructura necesarias para la clonación de voz en tiempo real son accesibles incluso para quienes tienen recursos técnicos y financieros limitados», escribieron los investigadores.
«Cabe destacar que todo esto fue posible utilizando hardware, fuentes de audio y software de procesamiento de audio que eran ‘suficientemente buenos’, en lugar de ser excepcionales», señalaron. «Es decir, la inversión financiera para lograr nuestros resultados estaría sin duda al alcance de muchas personas y, sin duda, de una pequeña organización».
Tecnología en Proliferación.
La clonación en tiempo real es muy importante para los estafadores, señaló Matthew Harris, gerente sénior de producto para protección contra fraudes en Crane Authentication, una empresa global de protección de marca y seguridad de productos. «Las víctimas confían en el número, la voz y el contenido del mensaje de la persona que llama, todo lo cual puede ser falsificado o clonado», declaró. «La clonación de voz en tiempo real hace que la estafa sea más creíble y aumenta las posibilidades de éxito».
«Al principio, los estafadores tenían dificultades para lograr el realismo; las voces y las imágenes solían presentar fallas reveladoras», explicó, «pero los LLM de código abierto han ayudado a superar estos problemas. Los modelos de IA ahora aprenden de los errores del pasado, haciendo que las voces y los rostros sintéticos sean cada vez más indistinguibles de los reales».
La clonación de voz en tiempo real marca la diferencia entre leer un guion e improvisar con un humano, explicó Brandon Kovacs, consultor sénior de seguridad en Bishop Fox, una empresa de ciberseguridad especializada en pruebas y consultoría de seguridad ofensiva, en Phoenix.
“La conversión de voz en tiempo real permite a los atacantes gestionar preguntas, ajustar solicitudes y escalar la autoridad”, declaró. “Esto se vuelve aún más potente cuando se combina con videos deepfake simultáneos en Zoom o Teams”.
“La clonación de voz en tiempo real es un factor multiplicador de fuerza”, añadió T. Frank Downs, director sénior de servicios proactivos de BlueVoyant, empresa de ciberseguridad empresarial de Nueva York. “Permite a los atacantes adaptar el tono, la cadencia y el contexto sobre la marcha, lo que mantiene la ilusión de autenticidad durante toda la llamada”.
“Esta capacidad de respuesta dinámica aumenta drásticamente la tasa de éxito y hace que la detección durante la interacción sea casi imposible”, declaró.
Realizar una buena clonación de voz en una variedad de objetivos puede ser un desafío, observó Roger Grimes, asesor de CISO de KnowBe4, un proveedor de capacitación en concienciación sobre seguridad, en Clearwater, Florida. “Algunas muestras de clonación de voz son fáciles de realizar, mientras que otras requieren cierta precisión”, explicó. Puede ser una habilidad que se aprende, como cualquier otra. Pero cada mes, las herramientas de clonación de voz facilitan su uso sin necesidad de grandes habilidades.
“Esto se debe a que la IA generativa actual es mejor que cualquier herramienta anterior en la coincidencia de patrones probabilísticos”, afirmó. “Esta capacidad permite a la IA obtener resultados mucho mejores que las herramientas de clonación de voz anteriores. Aún existen algunas voces e idiomas que la clonación de voz con IA no puede gestionar bien, y esto suele deberse a la falta de datos de entrada sobre ese estilo de voz o idioma. Por ejemplo, las herramientas de clonación de voz no funcionan bien con las voces de hablantes nativos africanos”.
Afirmó que la clonación de voz proliferará entre los ingenieros sociales. “Esperamos que la clonación de voz en tiempo real haga que la mayoría de las técnicas de ingeniería social basadas en voz sean compatibles con IA para finales de 2026”, predijo. “Para finales de 2026, la mayoría de las técnicas de ingeniería social basadas en voz no implicarán una voz humana real. El hackeo mediante ingeniería social se prepara para cambiar para siempre”.
Amenazas de vishing deepfake en aumento.
Incluso sin IA, es relativamente fácil crear mensajes de voz que suplantan la identidad de directores ejecutivos. «Basta con una grabación y una herramienta como ElevenLabs para crear una falsificación bastante convincente», explicó Alex Quilici, director ejecutivo de YouMail, una empresa de servicios de gestión de llamadas, en Irvine, California.
«Aún no hemos visto muchos casos similares, aunque cada vez hay más», declaró. «Prevemos que se convertirán en el próximo gran vector de ataque».
Quilici añadió que, a nivel anecdótico, los deepfakes de directores ejecutivos son cada vez más comunes. «Sin embargo, hasta el momento, no están muy extendidos», afirmó.
«Lo que sí está muy extendido actualmente son los mensajes de texto que suplantan la identidad de ejecutivos, y los hemos visto en nuestros clientes empresariales», continuó. La estafa consiste básicamente en enviar mensajes de texto a varios empleados, haciéndose pasar por el director ejecutivo e intentando que realicen una acción específica. Esto se debe a que los mensajes de texto son más fáciles de crear y enviar, y parecen funcionar.
Marc Maiffret, director de tecnología de BeyondTrust, empresa fabricante de soluciones de gestión de cuentas privilegiadas y gestión de vulnerabilidades, con sede en Carlsbad, California, advirtió que los ataques de suplantación de identidad basados en IA se están intensificando, afectando tanto a personas como a organizaciones. «Combatirlos requiere vigilancia humana y una sólida seguridad de la identidad», declaró. «Las organizaciones deben seguir aplicando el principio del mínimo privilegio, la supervisión de la infraestructura de identidad y la protección del acceso a cuentas confidenciales».
«Limiten las acciones de los atacantes, incluso con credenciales robadas», afirmó. «Los ataques de ingeniería social basados en IA ponen de manifiesto por qué la identidad es uno de los ámbitos más importantes que las empresas deben proteger. Los deepfakes son, y seguirán siendo, un gran ejemplo de la necesidad de tratar la identidad como el nuevo perímetro».
Mientras tanto, los investigadores del NCC están trabajando en videos deepfake. «Hasta ahora, las investigaciones preliminares solo han logrado identificar nuevas limitaciones y problemas en este campo», escribieron. «Por ejemplo, existen dificultades para sincronizar las señales de audio y video modificadas».
«Sin embargo», señalaron, «dada la velocidad sin precedentes con la que esta tecnología avanza, se espera que una solución deepfake que simule de forma realista tanto el audio como el video sea viable; es solo cuestión de tiempo».

