OpenAI lanza un nuevo agente de IA de propósito general en ChatGPT. Según la compañía, este agente puede realizar una amplia variedad de tareas informáticas en nombre de los usuarios. OpenAI afirma que el agente puede navegar automáticamente por el calendario del usuario, generar presentaciones y diapositivas editables, y ejecutar código.
La herramienta, llamada agente ChatGPT, combina varias funciones de las herramientas de agente anteriores de OpenAI, como la capacidad del operador para navegar por sitios web, así como la capacidad de Deep Research para sintetizar información de docenas de sitios web en un informe de investigación conciso. OpenAI afirma que los usuarios podrán interactuar con el agente simplemente indicando a ChatGPT en lenguaje natural.
El agente ChatGPT se lanzará el jueves para los suscriptores de los planes Pro, Plus y Team de OpenAI. Para activar la herramienta, los usuarios pueden seleccionar «modo agente» en el menú desplegable de herramientas de ChatGPT.
El lanzamiento del agente ChatGPT representa el intento más audaz de OpenAI hasta la fecha por convertir ChatGPT en un producto con capacidad de acción y delegar tareas a los usuarios, en lugar de simplemente responder preguntas. En los últimos años, empresas de Silicon Valley como OpenAI, Google y Perplexity han presentado docenas de agentes de IA que prometen precisamente eso. Sin embargo, estas versiones iniciales de agentes de IA han demostrado tener dificultades para realizar tareas complejas y parecen menos atractivas como productos que la visión definitiva que los ejecutivos tecnológicos presentan en torno a los agentes de IA.
Dicho esto, OpenAI afirma que el agente ChatGPT es mucho más potente que sus ofertas anteriores.
El nuevo agente de la compañía puede acceder a los conectores de ChatGPT, lo que permite a los usuarios conectar aplicaciones como Gmail y GitHub para que el agente pueda encontrar información relevante para sus solicitudes. OpenAI afirma que el agente ChatGPT tiene acceso a un terminal y puede usar API para acceder a ciertas aplicaciones.
OpenAI sugiere que los usuarios pueden usar el agente ChatGPT para «planificar y comprar ingredientes para preparar un desayuno japonés para cuatro», así como para «analizar a tres competidores y crear una presentación». Este tipo de capacidades requiere que el agente ChatGPT analice sitios web, planifique un plan de acción y utilice herramientas; tareas mucho más complejas que las que OpenAI ha intentado abordar anteriormente con agentes.
El modelo subyacente al agente ChatGPT ofrece un rendimiento de vanguardia en varios benchmarks, según OpenAI.
La compañía afirma que el modelo del agente ChatGPT obtiene una puntuación del 41,6% en el Último Examen de la Humanidad (aprobado en 1), una prueba difícil compuesta por miles de preguntas en más de cien temas. Esto es aproximadamente el doble de la puntuación obtenida por los o3 y o4-mini de OpenAI en la prueba.
En FrontierMath, uno de los benchmarks matemáticos más difíciles conocidos, OpenAI afirma que el agente ChatGPT obtiene una puntuación del 27,4% cuando tiene acceso a herramientas, como una terminal para la ejecución de código. La puntuación de vanguardia anterior proviene de o4-mini, que obtuvo tan solo un 6,3%.
OpenAI señala que desarrolló el agente ChatGPT pensando en la seguridad, principalmente porque el producto presenta nuevas capacidades que podrían hacerlo más peligroso en manos de un agente malintencionado. OpenAI ya había advertido que los modelos agénticos podrían presentar capacidades más peligrosas.
En un informe de seguridad del agente ChatGPT, OpenAI afirma haber designado el modelo como de «alta capacidad» en el ámbito de las armas biológicas y químicas, lo que se define en el Marco de Preparación de OpenAI como un modelo con la capacidad de «amplificar las vías existentes hacia daños graves». OpenAI señala que no cuenta con evidencia directa de esto, pero ha decidido adoptar un enfoque preventivo y activar nuevas medidas de seguridad para mitigar estos riesgos.
Las nuevas medidas de seguridad para el agente ChatGPT incluyen un monitor que funciona en tiempo real mientras los usuarios interactúan con el producto. OpenAI afirma que ejecuta un clasificador en cada solicitud introducida en el agente ChatGPT, determinando si la solicitud está relacionada con la biología. De ser así, OpenAI ejecuta la respuesta del agente ChatGPT a través de un segundo monitor que determina si el contenido podría utilizarse para evocar una amenaza biológica.
OpenAI también afirma haber desactivado la función de memoria de ChatGPT para este agente con el fin de evitar su uso indebido. En otras partes de ChatGPT, esta función permite al chatbot consultar información de chats anteriores de usuarios. Sin embargo, OpenAI advierte que actores maliciosos podrían usar esta función del agente ChatGPT para exfiltrar datos confidenciales mediante ataques de inyección rápida. La compañía afirma que podría volver a considerar la incorporación de esta función en el futuro.
Si bien el agente ChatGPT suena impresionante, aún está por verse su verdadera capacidad en el mundo real. Hasta ahora, la tecnología de los agentes ha demostrado ser relativamente frágil al interactuar con el mundo real. Dicho esto, OpenAI afirma haber desarrollado un modelo más capaz que puede cumplir la promesa de los agentes de IA.

