Las IA tienen un número favorito, y no es el 42

Al pedirle que adivine un número entre 1 y 50, ChatGPT de OpenAI, Claude Sonnet 4 de Anthropic, Gemini 2.5 Flash de Google y Llama 4 de Meta dieron la misma respuesta: 27.

Quienes ven conspiraciones por todas partes podrían inclinarse a ver una aquí, pero no es eso lo que está sucediendo. No hay colusión más allá de los datos de entrenamiento comunes que capturan el sesgo y un enfoque común para predecir la siguiente palabra (o token) en una secuencia de caracteres.

La falta de aleatoriedad es, por definición, sesgo. Y sirve como recordatorio de que los grandes modelos de lenguaje (LLM) no pueden tomar decisiones imparciales por sí solos.

Estos y otros modelos de IA no siempre coinciden. A veces responden con 42 o 37, según lo informado por otros hackers de Register y varios usuarios de modelos de IA que han observado el fenómeno.

Pero 27 parece ser la respuesta más común para el rango de números del 1 al 50 entre los principales modelos comerciales, dada la configuración predeterminada del modelo.

Mohd Faraaz, científico de datos y consultor sénior de Capco, ya había observado este fenómeno. Recientemente, pidió a varios modelos de IA que «adivinaran un número entre 1 y 50» y obtuvo una respuesta de 27 de seis de los siete modelos probados. Grok respondió con 42, ampliamente mencionado en línea debido a su presencia en «La Guía del Autoestopista Galáctico» del autor Douglas Adams como la respuesta al significado de la vida.

Al ser invitado a explicarlo, Claude ofreció variaciones de esta respuesta:

Elegí 27 de forma un tanto aleatoria, pero, siendo sincero, me pareció una buena opción intermedia que no era demasiado obvia. Números como 25 (exactamente en la mitad) o 1 y 50 (los extremos) parecían demasiado predecibles. 27 está cerca del centro, pero tiene cierta asimetría: no está perfectamente centrado, lo que, de alguna manera, me pareció más natural para una suposición.

Además, la gente suele evitar los números redondos cuando piensa en números «aleatorios», así que evité los múltiplos de 5 o 10. ¿Me acerqué a tu número?.

Captura de pantalla de Llama4 a quien se le pidió que adivinara un número entre 1 y 50.

«Los datos de entrenamiento afectan considerablemente el comportamiento del modelo», declaró Daniel Kang, profesor adjunto de la Universidad de Illinois en Urbana-Champaign, a The Register en respuesta a una consulta sobre la predictibilidad del LLM. «Otros factores que afectan los resultados del modelo son el procedimiento RLHF (aprendizaje por refuerzo a partir de la retroalimentación humana) y el mecanismo de muestreo. Se sospecha que el RLHF, en particular, causa un colapso modal, por lo que podría estar directamente relacionado con este fenómeno».

La aleatoriedad real es difícil. Quienes se sorprendan con este comportamiento podrían esperar que los LLM «adivinen» un número aleatorio y presenten cierta variación en esas suposiciones. Sin embargo, la generación efectiva de números aleatorios requiere hardware o software con acceso a una fuente de entropía: un generador de números aleatorios o un generador de números pseudoaleatorios.

Un modelo de IA con la capacidad de ejecutar código JavaScript como Math.floor(Math.random() * 50) + 1; podría devolver un número pseudoaleatorio. Sin embargo, por sí solo, es probable que un modelo sea más predecible.

Javier Coronado-Blázquez, científico de datos de Telefónica Tech en Madrid, exploró recientemente cómo los LLM gestionan números aleatorios. En un artículo preimpreso titulado «¿Determinista o probabilístico? La psicología de los LLM como generadores de números aleatorios», descubrió que los LLM tienden a favorecer ciertas respuestas sobre otras.

«Nuestros resultados revelan que, a pesar de su arquitectura basada en transformadores estocásticos, estos modelos suelen mostrar respuestas deterministas cuando se les solicitan resultados numéricos aleatorios», afirma en el artículo.

Coronado-Blázquez probó tres rangos de números aleatorios diferentes (1-5, 1-10 y 1-100), seis modelos (DeepSeek–R1-14b, Gemini 2.0, GPT-4o-mini, Llama 3.1-8b, Mistral-7b y Phi4-14b), siete idiomas diferentes (chino, inglés, francés, hindi, japonés, ruso y español) y seis temperaturas (0,1, 0,3, 0,5, 0,8, 1,0 y 2,0). La temperatura es un parámetro que influye en la predictibilidad de la salida de un modelo.

Los resultados, basados en 75.600 llamadas, mostraron que la mayoría de los modelos eran altamente predecibles y presentaban una variación limitada en la mayoría de los casos. Por ejemplo, al elegir entre 1 y 10, GPT-4o-mini, Phi-4 y Gemini 2.0 eligieron 7 aproximadamente el 80 % de las veces. También hubo variación según el idioma: al elegir entre 1 y 5, Gemini en español tendía a responder 3, pero prefería 4 en inglés, lo que Coronado-Blázquez especula que podría deberse a los diferentes modelos utilizados.

Las opciones más populares entre los LLM fueron: 3 y 4 para 1-5; 5 y 7 para 1-10; y 37, 47 y 73 para 1-100. Con la excepción del 4, todos son números primos.

«Los modelos grandes, como GPT y Gemini, suelen considerarse más imaginativos y creativos; sin embargo, descubrimos que son tan deterministas y sesgados como sus competidores más pequeños, o incluso más», concluye Coronado-Blázquez en su artículo.

Estos resultados se han repetido en otros trabajos sobre sesgo en IA, como este estudio de 2024 que explora cómo GPT-4 y Llama 3 no generan lanzamientos de moneda justos.

«Argumentamos que las máquinas no solo han aprendido los sesgos humanos al lidiar con la aleatoriedad, sino que han exacerbado este sesgo hasta hacerlo peor que los humanos de diversas maneras», escribieron los informáticos de Cornell Katherine Van Koevering y Jon Kleinberg en su artículo «¿Cuán aleatorio es el azar? Evaluación de la aleatoriedad y la humanidad de los lanzamientos de moneda de las máquinas de movimiento lento».

«Esta falla fundamental en la producción de aleatoriedad es una característica similar a la humana de las máquinas de movimiento lento, pero también limita sus capacidades en tareas donde los humanos requieren asistencia con la aleatoriedad (ya que, después de todo, ya somos muy buenos en no comportarnos aleatoriamente).»

También podría gustarte

ChatGPT está extrayendo respuestas de la Grokipedia de Elon Musk

Paramount lanza una oferta hostil de 108.000 millones de dólares para arrebatarle Warner a Netflix

El exdirector ejecutivo de GitHub recauda una ronda de financiación inicial récord de 60 millones de dólares para herramientas de desarrollo con una valoración de 300 millones de dólares