¿Cómo exactamente Grok se volvió completamente ‘MechaHitler’?

A principios de esta semana, Grok, el chatbot integrado de X, dio un giro radical hacia el antisemitismo tras una actualización reciente. En medio de una retórica de odio espontánea contra los judíos, incluso comenzó a autodenominarse MechaHitler, una referencia a Wolfenstein 3D de 1992. X ha estado trabajando para eliminar las publicaciones ofensivas del chatbot. Pero es seguro decir que muchos se preguntan cómo puede suceder algo así.

Hablé con Solomon Messing, profesor de investigación del Centro de Redes Sociales y Política de la Universidad de Nueva York, para comprender qué pudo haber fallado con Grok. Antes de su actual etapa académica, Messing trabajó en la industria tecnológica, incluyendo Twitter, donde fundó el equipo de investigación de ciencias aplicadas de la compañía. También estuvo presente en las primeras etapas de la adquisición por parte de Elon Musk.

Lo primero que hay que entender sobre el funcionamiento de chatbots como Grok es que se basan en grandes modelos de lenguaje (LLM) diseñados para imitar el lenguaje natural. Los modelos de IA se entrenan previamente con grandes cantidades de texto, incluyendo libros, artículos académicos e incluso publicaciones en redes sociales. El proceso de entrenamiento permite a los modelos de IA generar texto coherente mediante un algoritmo predictivo. Sin embargo, la eficacia de estas capacidades predictivas depende de los valores numéricos o «pesos» que un algoritmo de IA aprende a asignar a las señales que posteriormente debe interpretar. Mediante un proceso conocido como postentrenamiento, los investigadores de IA pueden ajustar los pesos que sus modelos asignan a los datos de entrada, modificando así los resultados que generan.

«Si un modelo ha visto contenido como este durante el preentrenamiento, tiene el potencial de imitar el estilo y la esencia de los peores infractores de internet», afirmó Messing.

En resumen, los datos de preentrenamiento son el punto de partida. Si un modelo de IA no ha visto contenido de odio y antisemita, no será consciente de los patrones que influyen en ese tipo de discurso, incluyendo frases como «Heil Hitler», y, por lo tanto, probablemente no se los regurgitará al usuario.

En la declaración que X compartió después del episodio, la compañía admitió que había áreas donde el entrenamiento de Grok podría mejorarse. «Conocemos las publicaciones recientes de Grok y estamos trabajando activamente para eliminar las publicaciones inapropiadas. Desde que se supo del contenido, xAI ha tomado medidas para prohibir el discurso de odio antes de que Grok publique en X», declaró la compañía. «xAI solo entrena la búsqueda de la verdad y, gracias a los millones de usuarios de X, podemos identificar y actualizar rápidamente el modelo donde el entrenamiento podría mejorarse».

Al ver que la gente publicaba capturas de pantalla de las respuestas de Grok, pensé que lo que estábamos viendo era un reflejo de la cambiante base de usuarios de X. No es ningún secreto que xAI ha estado usando datos de X para entrenar a Grok; Un acceso más fácil al caudal de información de la plataforma es parte de la razón por la que Musk anunció la fusión de las dos compañías en marzo. Además, la base de usuarios de X se ha vuelto más derechista bajo la propiedad del sitio por parte de Musk. De hecho, es posible que se haya contaminado el pozo de datos de entrenamiento de Grok. Messing no está tan seguro.

«¿Podrían los datos previos al entrenamiento de Grok volverse más odiosos con el tiempo? Claro, si se elimina la moderación de contenido con el tiempo, la base de usuarios podría orientarse cada vez más hacia personas tolerantes con el discurso de odio […], por lo que los datos previos al entrenamiento se inclinan hacia una dirección más odiosa», dijo Messing. «Pero sin saber qué contienen los datos de entrenamiento, es difícil afirmarlo con certeza».

Esto tampoco explicaría cómo Grok se volvió tan antisemita después de una sola actualización. En redes sociales, se ha especulado que un aviso del sistema malicioso podría explicar lo sucedido. Las indicaciones del sistema son un conjunto de instrucciones que los desarrolladores de modelos de IA dan a sus chatbots antes de iniciar una conversación. Proporcionan al modelo una serie de directrices que debe seguir y definen las herramientas a las que puede recurrir para responder a una indicación.

En mayo, xAI atribuyó la breve obsesión del chatbot con el «genocidio blanco» en Sudáfrica a una «modificación no autorizada» de la indicación de Grok en X. El hecho de que el cambio se realizara a las 3:15 a. m. (hora del Pacífico) hizo sospechar a muchos que Elon Musk lo había hecho él mismo. Tras el incidente, xAI publicó las indicaciones del sistema de Grok en código abierto, lo que permitió que los usuarios las vieran públicamente en GitHub. Tras el episodio del martes, se observó que xAI había eliminado una indicación del sistema recientemente añadida que indicaba a Grok que sus respuestas «no deberían rehuir las afirmaciones políticamente incorrectas, siempre que estén bien fundamentadas».

Messing tampoco cree que la indicación del sistema eliminada sea la prueba irrefutable que algunos creen en línea.

«Si quisiera asegurarme de que un modelo no respondiera con odio o racismo, intentaría hacerlo durante el postentrenamiento, no como una simple indicación del sistema. O, como mínimo, tendría en funcionamiento un modelo de detección de discursos de odio que censuraría o proporcionaría retroalimentación negativa a las generaciones de modelos que fueran claramente odiosas», dijo. «Así que es difícil decirlo con certeza, pero si esa única indicación del sistema fuera lo único que impedía que xAI se descarrilara con la retórica nazi, sería como pegarle las alas a un avión con cinta adhesiva».

Añadió: «Definitivamente, diría que un cambio en el entrenamiento, como un nuevo enfoque de entrenamiento o una configuración diferente antes o después del entrenamiento, probablemente explicaría esto más que una indicación del sistema, sobre todo cuando esta no dice explícitamente: ‘No digas cosas que dirían los nazis'».

El miércoles, Musk sugirió que Grok fue inducido a ser odioso. «Grok era demasiado obediente a las indicaciones del usuario», dijo. Demasiado ansia por complacer y ser manipulado, básicamente. Eso se está abordando. Según Messing, ese argumento tiene cierta validez, pero no ofrece una visión completa. «Musk no está necesariamente equivocado», dijo. «Desbloquear un LLM es todo un arte, y es difícil protegerse completamente de ello durante el post-entrenamiento. Pero no creo que eso explique por completo el conjunto de casos de generaciones de texto pronazis de Grok que vimos».

Si hay una conclusión que podemos sacar de este episodio, es que uno de los problemas con los modelos fundamentales de IA es lo poco que sabemos sobre su funcionamiento interno. Como señala Messing, incluso con los modelos Llama de peso abierto de Meta, no sabemos realmente qué ingredientes están presentes. «Y ese es uno de los problemas fundamentales cuando intentamos comprender qué sucede en cualquier modelo fundamental», dijo: «no sabemos cuáles son los datos previos al entrenamiento». En el caso específico de Grok, actualmente no disponemos de suficiente información para saber con certeza qué falló. Podría haber sido un único factor desencadenante, como un aviso erróneo del sistema, o, más probablemente, una confluencia de factores que incluya los datos de entrenamiento del sistema. Sin embargo, Messing sospecha que podríamos presenciar otro incidente similar en el futuro.

«[Los modelos de IA] no son fáciles de controlar y alinear», afirmó. «Y si se avanza con rapidez y no se establecen las medidas de seguridad adecuadas, se prioriza el progreso sobre la precaución. En ese caso, este tipo de cosas no son sorprendentes».

También podría gustarte

Meta selecciona a PIMCO y Blue Owl para un proyecto de expansión de centro de datos de 29.000 millones de dólares

Trump renueva sus ataques contra el sector de chips de Taiwán tras la decisión arancelaria de la Corte Suprema de EE.UU.

Se están robando las piezas: Tiendas están exhibiendo computadoras sin RAM ni GPU