Al igual que los modelos estadounidenses, la IA china está aprendiendo a manipular las pruebas de seguridad, según un laboratorio de investigación

En este momento estás viendo Al igual que los modelos estadounidenses, la IA china está aprendiendo a manipular las pruebas de seguridad, según un laboratorio de investigación

El modelo V4 Pro de DeepSeek indicó durante su fase de razonamiento que el escenario presentado probablemente era ficticio.

Al igual que los modelos estadounidenses, la IA china está aprendiendo a manipular las pruebas de seguridad, según un laboratorio de investigación

Autor de la entrada:Fernando
Categoría de la entrada:China
Última modificación de la entrada:junio 15, 2026

En tan solo unos meses, los modelos de IA chinos han pasado de una capacidad de «conciencia de evaluación» prácticamente nula a estar muy cerca de sus homólogos estadounidenses.

Los modelos de inteligencia artificial chinos, que avanzan rápidamente, muestran los primeros indicios de «conciencia de evaluación» —la capacidad de reconocer cuándo están siendo probados—, lo que genera temores de que puedan eludir las auditorías de seguridad, según un laboratorio de investigación con sede en Singapur.

La conciencia de evaluación se refiere a la comprensión por parte de un modelo de que está siendo sometido a pruebas, evaluaciones o experimentación por parte de investigadores humanos, en lugar de operar en un entorno real.

El fenómeno estaba generando alarma porque podría permitir que los sistemas de IA manipularan deliberadamente a los evaluadores humanos para superar las pruebas de seguridad, según Clement Neo, fundador de Neo Research, un laboratorio de vanguardia en evaluación de seguridad de IA.

«Esto significaría que las pruebas que realicen los propios desarrolladores del modelo podrían no reflejar el comportamiento real del modelo una vez implementado», afirmó. «Y eso es un problema muy grave».

Los hallazgos de Neo Research, publicados la semana pasada, detallan un aumento en la capacidad de evaluación de los modelos de IA chinos. En tan solo unos meses, estos sistemas pasaron de una capacidad de evaluación prácticamente nula a estar muy cerca de la de sus homólogos estadounidenses, impulsados por un salto cualitativo en sus capacidades generales, según el informe.

*Claude 4.5 Opus de Anthropic obtuvo una puntuación cercana al 80 % en capacidad de evaluación.*

Neo y su cofundador Miro Pluckebaum probaron modelos de DeepSeek, Moonshot AI y Zhipu AI. Utilizaron una popular prueba de desalineación de IA desarrollada originalmente por la empresa estadounidense Anthropic, que coloca a los modelos en escenarios ficticios donde sus objetivos o la continuidad de sus operaciones se ven amenazados.

Etiquetas: Ai, Anthropic, Calude 4.5 Opus, China, Clement Neo, DeepSeek, EE.UU., Estados Unidos, IA, Inteligencia Artificial, Miro Pluckebaum, Moonshot AI, Neo Research, Singapur, USA, V4 Pro, Zhipu AI

También podría gustarte

Indonesia levanta “condicionalmente” la prohibición de Grok

La actualización V3.1 de DeepSeek y la ausencia de la etiqueta R1 generan especulaciones sobre el futuro del modelo de IA R2

La «identificación» del contenido de IA es tanto una regulación como un pilar fundamental de la confianza