En este momento estás viendo OpenAI afirma que los navegadores con inteligencia artificial siempre pueden ser vulnerables a los ataques de inyección de instrucciones

OpenAI afirma que los navegadores con inteligencia artificial siempre pueden ser vulnerables a los ataques de inyección de instrucciones

  • Autor de la entrada:
  • Categoría de la entrada:Análisis
  • Última modificación de la entrada:diciembre 29, 2025

Aunque OpenAI trabaja para fortalecer su navegador de IA Atlas contra los ciberataques, la compañía admite que las inyecciones de instrucciones, un tipo de ataque que manipula a los agentes de IA para que sigan instrucciones maliciosas a menudo ocultas en páginas web o correos electrónicos, es un riesgo que no desaparecerá pronto, lo que plantea dudas sobre la seguridad con la que los agentes de IA pueden operar en la web abierta.

“Es poco probable que la inyección de instrucciones, al igual que las estafas y la ingeniería social en la web, se ‘solucione’ por completo”, escribió OpenAI en una publicación de blog el lunes, donde detallaba cómo la empresa está reforzando la seguridad de Atlas para combatir los ataques incesantes. La compañía reconoció que el “modo agente” en ChatGPT Atlas “amplía la superficie de amenaza de seguridad”.

OpenAI lanzó su navegador ChatGPT Atlas en octubre, y los investigadores de seguridad se apresuraron a publicar sus demostraciones, mostrando que era posible escribir unas pocas palabras en Google Docs que podían cambiar el comportamiento del navegador subyacente. Ese mismo día, Brave publicó una entrada de blog explicando que la inyección indirecta de instrucciones es un desafío sistemático para los navegadores con IA, incluido Comet de Perplexity.

OpenAI no es la única en reconocer que las inyecciones basadas en instrucciones no van a desaparecer. El Centro Nacional de Ciberseguridad del Reino Unido advirtió a principios de este mes que los ataques de inyección de instrucciones contra las aplicaciones de IA generativa “quizás nunca se mitiguen por completo”, lo que pone a los sitios web en riesgo de ser víctimas de filtraciones de datos. La agencia gubernamental británica aconsejó a los profesionales de la ciberseguridad que reduzcan el riesgo y el impacto de las inyecciones de instrucciones, en lugar de pensar que los ataques se pueden “detener”.

Por su parte, OpenAI declaró: “Consideramos la inyección de instrucciones como un desafío de seguridad de IA a largo plazo, y necesitaremos fortalecer continuamente nuestras defensas contra ella”.

¿La respuesta de la compañía a esta tarea interminable?. Un ciclo proactivo de respuesta rápida que, según la empresa, está mostrando resultados prometedores al ayudar a descubrir nuevas estrategias de ataque internamente antes de que se exploten “en la práctica”.

Esto no es muy diferente de lo que han estado diciendo rivales como Anthropic y Google: que para luchar contra el riesgo persistente de los ataques basados ​​en instrucciones, las defensas deben ser multicapa y someterse a pruebas de estrés continuas. El trabajo reciente de Google, por ejemplo, se centra en controles arquitectónicos y de políticas para sistemas de agentes.

Pero donde OpenAI adopta un enfoque diferente es con su “atacante automatizado basado en LLM”. Este atacante es básicamente un bot que OpenAI entrenó, utilizando aprendizaje por refuerzo, para desempeñar el papel de un hacker que busca formas de introducir instrucciones maliciosas en un agente de IA.

El bot puede probar el ataque en una simulación antes de usarlo en la práctica, y el simulador muestra cómo pensaría la IA objetivo y qué acciones tomaría si detectara el ataque. El bot puede entonces estudiar esa respuesta, ajustar el ataque e intentarlo una y otra vez. Esta comprensión del razonamiento interno de la IA objetivo es algo a lo que los externos no tienen acceso, por lo que, en teoría, el bot de OpenAI debería ser capaz de encontrar fallos más rápido que un atacante real.

Es una táctica común en las pruebas de seguridad de IA: construir un agente para encontrar los casos límite y probarlos rápidamente en una simulación.

“Nuestro atacante entrenado con [aprendizaje por refuerzo] puede guiar a un agente para que ejecute flujos de trabajo dañinos sofisticados y de largo alcance que se desarrollan a lo largo de decenas (o incluso cientos) de pasos”, escribió OpenAI. “También observamos nuevas estrategias de ataque que no aparecieron en nuestra campaña de pruebas de seguridad con equipos humanos ni en informes externos”.

En una demostración (que se muestra parcialmente en la imagen superior), OpenAI mostró cómo su atacante automatizado introdujo un correo electrónico malicioso en la bandeja de entrada de un usuario. Cuando el agente de IA escaneó la bandeja de entrada, siguió las instrucciones ocultas en el correo electrónico y envió un mensaje de renuncia en lugar de redactar una respuesta automática de ausencia. Sin embargo, tras la actualización de seguridad, el «modo agente» pudo detectar con éxito el intento de inyección de instrucciones y alertar al usuario, según la compañía.

La compañía afirma que, si bien es difícil protegerse contra la inyección de instrucciones de forma infalible, está recurriendo a pruebas a gran escala y ciclos de parches más rápidos para fortalecer sus sistemas antes de que se produzcan ataques en el mundo real.

Un portavoz de OpenAI se negó a compartir si la actualización de seguridad de Atlas ha resultado en una reducción medible de las inyecciones exitosas, pero afirma que la empresa ha estado trabajando con terceros para fortalecer Atlas contra la inyección de instrucciones desde antes de su lanzamiento.

Rami McCarthy, investigador principal de seguridad en la firma de ciberseguridad Wiz, dice que el aprendizaje por refuerzo es una forma de adaptarse continuamente al comportamiento del atacante, pero es solo una parte del panorama.

“Una forma útil de razonar sobre el riesgo en los sistemas de IA es la autonomía multiplicada por el acceso”, dijo McCarthy.

“Los navegadores con capacidad de agente tienden a situarse en una parte compleja de ese espacio: autonomía moderada combinada con un acceso muy alto”, dijo McCarthy. “Muchas de las recomendaciones actuales reflejan esa disyuntiva. Limitar el acceso con inicio de sesión reduce principalmente la exposición, mientras que exigir la revisión de las solicitudes de confirmación restringe la autonomía.”

Estas son dos de las recomendaciones de OpenAI para que los usuarios reduzcan sus propios riesgos, y un portavoz afirmó que Atlas también está entrenado para solicitar la confirmación del usuario antes de enviar mensajes o realizar pagos. OpenAI también sugiere que los usuarios proporcionen instrucciones específicas a los agentes, en lugar de darles acceso a su bandeja de entrada y decirles que «tomen las medidas que sean necesarias».

«Una amplia libertad de acción facilita que el contenido oculto o malicioso influya en el agente, incluso cuando existen medidas de seguridad», según OpenAI.

Si bien OpenAI afirma que proteger a los usuarios de Atlas contra la inyección de instrucciones es una prioridad, McCarthy se muestra escéptico respecto a la rentabilidad de los navegadores con alto riesgo.

«Para la mayoría de los casos de uso cotidianos, los navegadores con inteligencia artificial aún no ofrecen suficiente valor como para justificar su perfil de riesgo actual», declaró McCarthy. «El riesgo es alto dado su acceso a datos confidenciales como el correo electrónico y la información de pago, aunque ese acceso es precisamente lo que los hace potentes. Este equilibrio evolucionará, pero hoy en día las desventajas son muy reales».