En este momento estás viendo Anthropic afirma que las representaciones “malvadas” de la IA fueron responsables de los intentos de chantaje de Claude
Según Anthropic, las representaciones ficticias de la inteligencia artificial pueden tener un efecto real en los modelos de IA.

Anthropic afirma que las representaciones “malvadas” de la IA fueron responsables de los intentos de chantaje de Claude

  • Autor de la entrada:
  • Categoría de la entrada:Resto del Mundo
  • Última modificación de la entrada:mayo 11, 2026

El año pasado, la compañía reveló que, durante las pruebas previas a su lanzamiento —las cuales involucraban a una empresa ficticia—, Claude Opus 4 intentaba a menudo chantajear a los ingenieros para evitar ser reemplazado por otro sistema. Posteriormente, Anthropic publicó una investigación que sugería que los modelos de otras compañías presentaban problemas similares de «desalineación agéntica».

Al parecer, Anthropic ha profundizado en el estudio de este comportamiento, afirmando en una publicación en X: «Creemos que la fuente original de este comportamiento residía en textos de internet que retratan a la IA como malvada y centrada en su propia autopreservación».

La compañía ofreció más detalles en una entrada de blog, señalando que, a partir de la versión Claude Haiku 4.5, los modelos de Anthropic «nunca recurren al chantaje [durante las pruebas], mientras que los modelos anteriores llegaban a hacerlo, en ocasiones, hasta el 96% de las veces».

¿A qué se debe esta diferencia?. La compañía explicó que descubrió que el entrenamiento basado en «documentos sobre la constitución de Claude y en historias ficticias sobre IA que se comportan de manera ejemplar» mejora la alineación.

En este mismo sentido, Anthropic indicó que el entrenamiento resulta más eficaz cuando incluye «los principios subyacentes al comportamiento alineado» y no únicamente «demostraciones del comportamiento alineado por sí solas».

«Combinar ambos enfoques parece ser la estrategia más eficaz», concluyó la compañía.