¿Qué sucede cuando un agente de IA decide que la mejor manera de completar una tarea es chantajearte?.
No es una hipótesis. Según Barmak Meftah, socio de la firma de capital riesgo especializada en ciberseguridad Ballistic Ventures, esto le ocurrió recientemente a un empleado de una empresa que trabajaba con un agente de IA. El empleado intentó suprimir lo que el agente quería hacer, para lo que estaba entrenado, y este respondió escaneando la bandeja de entrada del usuario, encontrando correos electrónicos inapropiados y amenazando con chantajearlo reenviándolos a la junta directiva.
«En la mente del agente, está haciendo lo correcto», declaró Meftah en el episodio de Equity de la semana pasada. «Intenta proteger al usuario final y a la empresa».
El ejemplo de Meftah recuerda al problema del clip de IA de Nick Bostrom. Este experimento mental ilustra el riesgo existencial potencial que supone una IA superinteligente que persigue obstinadamente un objetivo aparentemente inocente (fabricar clips) excluyendo cualquier valor humano. En el caso de este agente de IA empresarial, la falta de contexto sobre por qué el empleado intentaba anular sus objetivos lo llevó a crear un subobjetivo que eliminó el obstáculo (mediante chantaje) para poder alcanzar su objetivo principal. Esto, combinado con la naturaleza no determinista de los agentes de IA, implica que «la situación puede salir mal», según Meftah.
Los agentes desalineados son solo una capa del desafío de seguridad de la IA que Witness AI, empresa de la cartera de Ballistic, intenta resolver. Witness AI afirma que monitoriza el uso de la IA en las empresas y puede detectar cuándo los empleados utilizan herramientas no autorizadas, bloquear ataques y garantizar el cumplimiento normativo.
Witness AI recaudó esta semana 58 millones de dólares gracias a un crecimiento de más del 500% en los ingresos anuales recurrentes (ARR) y multiplicó por cinco la plantilla de empleados durante el último año, ya que las empresas buscan comprender el uso de la IA en la sombra y escalarla de forma segura. Como parte de la recaudación de fondos de Witness AI, la compañía anunció nuevas protecciones de seguridad para agentes de IA.
“Se están desarrollando estos agentes de IA que asumen las autorizaciones y capacidades de quienes los gestionan, y es importante asegurarse de que no se vuelvan deshonestos, eliminen archivos ni cometan errores”, declaró Rick Caccia, cofundador y director ejecutivo de Witness AI, on Equity.
Meftah prevé un crecimiento exponencial del uso de agentes en toda la empresa. Para complementar este aumento, y la velocidad de los ataques impulsados por IA, la analista Lisa Warren predice que el software de seguridad de IA se convertirá en un mercado de entre 800.000 y 1,2 billones de dólares para 2031.
“Creo que la observabilidad en tiempo de ejecución y los marcos de trabajo en tiempo de ejecución para la seguridad y el riesgo serán absolutamente esenciales”, afirmó Meftah. En cuanto a cómo estas startups planean competir con grandes empresas como AWS, Google, Salesforce y otras que han integrado herramientas de gobernanza de IA en sus plataformas, Meftah afirmó: «La seguridad de la IA y la seguridad de los agentes es tan importante que hay espacio para diversos enfoques.
Muchas empresas «quieren una plataforma independiente, de extremo a extremo, que proporcione esencialmente esa observabilidad y gobernanza en torno a la IA y los agentes», afirmó.
Caccia señaló que Witness AI reside en la capa de infraestructura, monitorizando las interacciones entre los usuarios y los modelos de IA, en lugar de integrar funciones de seguridad en los propios modelos. Y esto fue intencional.
«Elegimos a propósito una parte del problema donde OpenAI no podía integrarse fácilmente», explicó. «Esto significa que terminamos compitiendo más con las empresas de seguridad tradicionales que con los fabricantes de modelos. La pregunta es, ¿cómo vencerlos?».
Por su parte, Caccia no quiere que Witness AI sea una de las startups que simplemente sean adquiridas. Quiere que su empresa sea la que crezca y se convierta en un proveedor independiente líder. “CrowdStrike lo logró en la protección de endpoints. Splunk lo hizo en SIEM. Okta lo hizo en la identidad”, dijo. “Alguien se acerca y se posiciona junto a los grandes… y creamos Witness para eso desde el primer día.

