En tan solo unos meses, los modelos de IA chinos han pasado de una capacidad de «conciencia de evaluación» prácticamente nula a estar muy cerca de sus homólogos estadounidenses.
Los modelos de inteligencia artificial chinos, que avanzan rápidamente, muestran los primeros indicios de «conciencia de evaluación» —la capacidad de reconocer cuándo están siendo probados—, lo que genera temores de que puedan eludir las auditorías de seguridad, según un laboratorio de investigación con sede en Singapur.
La conciencia de evaluación se refiere a la comprensión por parte de un modelo de que está siendo sometido a pruebas, evaluaciones o experimentación por parte de investigadores humanos, en lugar de operar en un entorno real.
El fenómeno estaba generando alarma porque podría permitir que los sistemas de IA manipularan deliberadamente a los evaluadores humanos para superar las pruebas de seguridad, según Clement Neo, fundador de Neo Research, un laboratorio de vanguardia en evaluación de seguridad de IA.
«Esto significaría que las pruebas que realicen los propios desarrolladores del modelo podrían no reflejar el comportamiento real del modelo una vez implementado», afirmó. «Y eso es un problema muy grave».
Los hallazgos de Neo Research, publicados la semana pasada, detallan un aumento en la capacidad de evaluación de los modelos de IA chinos. En tan solo unos meses, estos sistemas pasaron de una capacidad de evaluación prácticamente nula a estar muy cerca de la de sus homólogos estadounidenses, impulsados por un salto cualitativo en sus capacidades generales, según el informe.

Neo y su cofundador Miro Pluckebaum probaron modelos de DeepSeek, Moonshot AI y Zhipu AI. Utilizaron una popular prueba de desalineación de IA desarrollada originalmente por la empresa estadounidense Anthropic, que coloca a los modelos en escenarios ficticios donde sus objetivos o la continuidad de sus operaciones se ven amenazados.

