InvestigaciónHIGH

Phishing con deepfakes de voz: tasa de éxito del 78% en empresas

Nueva investigación revela que los ataques de phishing que utilizan deepfakes de voz generados por IA tienen una tasa de éxito del 78% en entornos empresariales, superando ampliamente al phishing tradicional.

2026-03-226 min de lecturaCloud360.net · Ciberseguridad

PhishingDeepfakeIngeniería Social

El phishing ya no suena como phishing

Un estudio conjunto publicado esta semana por investigadores del MIT, la Universidad de Edimburgo y el equipo de seguridad de Deloitte documenta una tendencia alarmante: los atacantes que combinan técnicas tradicionales de spear phishing con deepfakes de voz generados en tiempo real están logrando tasas de éxito que hacen que los métodos anteriores parezcan artesanales. La tasa de éxito del 78% —en un experimento controlado con 1.200 empleados de empresas reales— es la cifra más alta registrada para cualquier vector de ingeniería social desde que comenzaron a medirse estas métricas sistemáticamente.

Cómo funciona un ataque de vishing con deepfake

El ataque típico que documenta el estudio sigue un proceso de cuatro fases que puede ejecutarse en minutos con herramientas disponibles comercialmente:

Fase 1: Recolección de muestras de voz. Los atacantes recopilan grabaciones de voz de la persona que van a suplantar. Fuentes habituales incluyen vídeos corporativos en YouTube, entrevistas en podcasts, presentaciones públicas grabadas en Zoom, o simplemente llamadas previas al objetivo donde el atacante finge ser un cliente o proveedor. Con tan solo 30-60 segundos de audio limpio, los modelos de clonación de voz actuales (ElevenLabs, PlayHT o modelos open source como XTTS-v2) pueden generar una réplica convincente.

Fase 2: Preparación del contexto. Un análisis OSINT previo del objetivo determina la jerarquía organizacional, los proyectos en curso, el vocabulario típico del sector y las relaciones clave. LinkedIn, Glassdoor, el sitio web corporativo y las redes sociales del target proporcionan abundante información. Los atacantes construyen un escenario plausible que crea urgencia: una transferencia bancaria urgente, una brecha de seguridad activa, un proveedor en crisis.

Fase 3: La llamada. El atacante llama al objetivo suplantando la voz del CEO, CFO u otro ejecutivo de confianza mediante un sistema de conversión de voz en tiempo real. El modelo de IA transforma la voz del atacante hacia la voz objetivo con una latencia inferior a 200 milisegundos, suficientemente baja para mantener una conversación fluida. Sistemas como RealTimeVC o implementaciones privadas basadas en so-vits-svc permiten esta transformación en tiempo real.

Fase 4: La extracción. En el experimento, las solicitudes típicas incluían: autorización urgente de transferencias bancarias (Business Email Compromise evolucionado), compartición de credenciales VPN «por una situación de emergencia», o instalación de software de acceso remoto «autorizado por TI».

Los datos del experimento

El estudio involucró a 1.200 empleados en 40 empresas de diferentes sectores (finanzas, salud, manufactura, tecnología) en Europa y Norteamérica, todos con entrenamiento en ciberseguridad en los últimos 12 meses.

Resultados principales:

78% de los participantes tomaron la acción solicitada cuando creyeron estar hablando con un superior
El 91% no reportaron la llamada como sospechosa a posteriori
Solo el 9% de los que cumplieron la solicitud verificaron después la autenticidad de la llamada
Las empresas con protocolos de verificación explícitos (códigos de palabra, confirmación por segundo canal) mostraron una tasa de éxito del 34% — alta, pero significativamente menor
Los sectores financiero y sanitario mostraron las tasas más altas (85% y 82% respectivamente), posiblemente por la cultura de urgencia en la respuesta a superiores

Por qué funciona: la psicología detrás del ataque

Los investigadores identificaron tres mecanismos psicológicos principales que explican la alta tasa de éxito:

Autoridad e impedimento de verificación: Escuchar la voz de quien percibimos como un superior activa los mismos mecanismos de obediencia a la autoridad documentados por Milgram. La voz tiene un poder persuasivo que el correo electrónico no tiene. El atacante además crea una urgencia que inhibe el pensamiento crítico («necesito que hagas esto en los próximos diez minutos»).

Señales de autenticidad sintética: Los modelos actuales de clonación de voz replican no solo el timbre sino también patrones de respiración, muletillas habituales, acentos regionales y el ritmo de habla característico de la persona. El cerebro humano está optimizado para reconocer patrones vocales, y cuando esos patrones coinciden, la alerta crítica se desactiva.

Coherencia contextual: Los atacantes bien preparados incorporan referencias a proyectos reales, nombres de colegas y jerga interna de la empresa, aumentando dramáticamente la credibilidad percibida.

El mercado de herramientas para atacantes

Lo que hace especialmente preocupante este vector es la democratización de las herramientas. Servicios comerciales de clonación de voz legítimos (diseñados para doblaje, accesibilidad o localización de contenido) pueden ser usados con fines maliciosos con mínima modificación. El costo de infraestructura para un ataque de este tipo es inferior a $50 usando APIs comerciales, o prácticamente cero usando modelos open source locales.

En foros clandestinos monitorizados por investigadores de Recorded Future, se ofrecen «paquetes de vishing» completos: clonación de voz, script de ataque, datos OSINT del objetivo y guía de uso por entre $200 y $2.000 dependiendo del nivel de personalización.

Medidas defensivas efectivas

El estudio no solo documenta el problema sino que evaluó contramedidas:

Códigos de verificación de palabra: Cada empresa puede establecer una palabra clave secreta que debe pronunciarse en llamadas con solicitudes inusuales. Los equipos directivos deben compartir este código con sus colaboradores directos. Esta medida redujo la tasa de éxito al 23%.

Protocolo de doble canal: Cualquier solicitud urgente recibida por teléfono debe confirmarse por un segundo canal (correo corporativo, Slack o un callback al número corporativo verificado). Reducción del éxito al 19%.

Entrenamiento específico en vishing deepfake: Los empleados expuestos a muestras de audio deepfake y entrenados para reconocer sus características reducen su vulnerabilidad en un 40% respecto al grupo sin entrenamiento específico.

Límites de autorización vocal: Establecer políticas que prohíban explícitamente la autorización de transferencias, accesos o cambios de configuración basados únicamente en una llamada telefónica, sin importar quién llame.

La conclusión más importante del estudio es que el factor humano sigue siendo el eslabón más débil, pero también el más educable. La misma plasticidad cognitiva que nos hace vulnerables a estos ataques también nos permite desarrollar nuevos hábitos de verificación que mitiguen significativamente el riesgo.

Newsletter12,500+ suscriptores

Recibe el mejor contenido tech cada mañana

Gratis · Sin spam · Cancela cuando quieras

Ciberseguridad