En este momento estás viendo Los científicos demuestran que los modelos grandes pueden «entender» cosas como los humanos

Los científicos demuestran que los modelos grandes pueden «entender» cosas como los humanos

  • Autor de la entrada:
  • Categoría de la entrada:China
  • Última modificación de la entrada:junio 14, 2025

El día 10 se supo, a través del Instituto de Automatización de la Academia China de Ciencias, que investigadores del instituto y de otras unidades confirmaron por primera vez que el modelo multimodal de lenguaje amplio aprendió a «comprender» cosas durante el proceso de entrenamiento, una forma de comprensión muy similar a la de los humanos. Este descubrimiento ha abierto una nueva vía para explorar cómo «piensa» la inteligencia artificial y ha sentado las bases para la construcción de sistemas de inteligencia artificial que «entiendan» el mundo como los humanos en el futuro. Los resultados de la investigación se publicaron en línea en la revista Nature Machine Intelligence.

La esencia de la inteligencia humana reside en la capacidad de «comprender» verdaderamente las cosas. Cuando vemos un «perro» o una «manzana», no solo podemos reconocer su aspecto, como su tamaño, color, forma, etc., sino también comprender para qué sirven, qué sentimientos nos evocan y qué significado cultural tienen. Esta comprensión integral es la base de nuestra cognición del mundo. Con el rápido desarrollo de modelos de gran tamaño como ChatGPT, los científicos comenzaron a preguntarse: ¿Pueden aprender a «comprender» cosas como los humanos a partir de cantidades masivas de texto e imágenes?.

La investigación tradicional en inteligencia artificial se centra en la precisión del reconocimiento de objetos, pero rara vez explora si el modelo realmente «comprende» el significado de los objetos. «Actualmente, la inteligencia artificial puede distinguir entre imágenes de gatos y perros, pero la diferencia esencial entre este ‘reconocimiento’ y la ‘comprensión’ humana de gatos y perros aún está por revelarse», afirmó He Huiguang, autor correspondiente del artículo e investigador del Instituto de Automatización de la Academia China de Ciencias.

En este estudio, los investigadores adoptaron los principios de la cognición cerebral humana y diseñaron un ingenioso experimento: permitieron que el modelo grande jugara a «encontrar la diferencia» con humanos. Los experimentadores presentaron tres conceptos de objetos de 1.854 objetos comunes y les pidieron que eligieran el menos adecuado. Al analizar hasta 4,7 millones de datos de juicios, los investigadores dibujaron por primera vez el «mapa mental» del modelo general: el «mapa conceptual».

He Huiguang explicó que resumieron 66 perspectivas clave que representan cómo la inteligencia artificial «comprende» las cosas a partir de datos experimentales masivos y les asignaron un nombre. El estudio descubrió que estas perspectivas son muy fáciles de explicar y son altamente consistentes con la actividad neuronal del área responsable del procesamiento de objetos en el cerebro humano. Más importante aún, el modelo multimodal, capaz de comprender texto e imágenes simultáneamente, «piensa» y toma decisiones más parecidas a las de los humanos que otros modelos.

Además, el estudio también arrojó un hallazgo interesante: cuando los humanos emiten juicios, no solo se fijan en la apariencia de algo, como la forma y el color, sino que también piensan en su significado o propósito. Sin embargo, el modelo general se basa más en las «etiquetas de texto» que se le atribuyen y en los conceptos abstractos que ha aprendido. «Esto demuestra que el modelo general ha desarrollado una forma de comprender el mundo similar a la de los humanos», afirmó He Huiguang.