OpenAI está lanzando una nueva versión de ChatGPT Images que promete una mejor interpretación de las instrucciones, una edición más precisa y velocidades de generación de imágenes hasta cuatro veces más rápidas.
El nuevo modelo, denominado GPT Image 1.5, está disponible a partir del martes para todos los usuarios de ChatGPT y a través de la API. Se trata de la última escalada en la competencia con Gemini de Google, después de que el CEO de OpenAI, Sam Altman, declarara una «alerta roja» el mes pasado en un memorando interno filtrado. El memorando detallaba los planes de OpenAI para recuperar su posición como líder en IA después de que Google comenzara a ganar cuota de mercado tras el lanzamiento de Gemini 3, su último modelo insignia, y Nano Banana Pro, la versión más reciente del generador de imágenes viral de Google, ambos modelos que han encabezado la clasificación de LMArena en múltiples pruebas comparativas.
Google mantiene su liderazgo incluso después de que OpenAI respondiera a su éxito la semana pasada con el lanzamiento de GPT-5.2, presentándolo como su modelo más avanzado hasta la fecha para desarrolladores y uso profesional diario. Según se informa, OpenAI había planeado lanzar un nuevo generador de imágenes a principios de enero, acelerando esos planes con el anuncio de esta semana. Su último modelo de imágenes lanzado fue GPT Image 1 en abril.
GPT Image 1.5 llega en un momento en que los generadores de imágenes y video avanzan más allá de los prototipos y adquieren capacidades más aptas para la producción. Al igual que Nano Banana Pro, ChatGPT Image ofrece funciones de posproducción, proporcionando controles de edición más precisos para mantener la coherencia visual, como la similitud facial, la iluminación, la composición y el tono de color en las ediciones.

La mayoría de las herramientas de generación de imágenes con IA son deficientes en la iteración, por lo que esto supondría un gran avance. Cuando se les pide un cambio específico, como «ajustar la expresión facial» o «hacer que la iluminación sea más fría», los modelos a menudo reinterpretan la imagen completa, lo que provoca una falta de coherencia.
La actualización no se trata solo de nuevas funciones. Las imágenes de ChatGPT ahora también serán accesibles a través de un punto de acceso dedicado en la barra lateral de ChatGPT que funciona «más como un estudio creativo», escribió Fidji Simo, CEO de aplicaciones de OpenAI, en una publicación de blog el martes.
«Las nuevas pantallas de visualización y edición de imágenes facilitan la creación de imágenes que se ajusten a su visión o la obtención de inspiración a partir de indicaciones de tendencia y filtros preestablecidos», escribió Simo. Además del nuevo generador de imágenes, OpenAI está introduciendo nuevas formas de mejorar la experiencia de ChatGPT con más elementos visuales. El objetivo es que las consultas de búsqueda muestren más elementos visuales con fuentes claras, lo que podría ser útil para tareas como convertir unidades de medida o consultar resultados deportivos, según Simo.
“Cuando estás creando algo, deberías poder ver y dar forma a lo que estás creando. Cuando las imágenes cuentan una historia mejor que las palabras por sí solas, ChatGPT debería incluirlas”, escribió Simo. “Cuando necesitas una respuesta rápida o el siguiente paso se encuentra en otra herramienta, debería estar disponible de inmediato. Al hacer esto, podemos seguir reduciendo la brecha entre lo que tienes en mente y tu capacidad para hacerlo realidad”.


