En este momento estás viendo Un estudio revela que los modelos de IA de DeepSeek (China), Alibaba y Estados Unidos halagan demasiado a los usuarios
El problema de la adulación en la IA cobró gran relevancia en abril, cuando la actualización de ChatGPT de OpenAI hizo que el chatbot fuera notablemente más obsequioso.

Un estudio revela que los modelos de IA de DeepSeek (China), Alibaba y Estados Unidos halagan demasiado a los usuarios

  • Autor de la entrada:
  • Categoría de la entrada:China
  • Última modificación de la entrada:octubre 31, 2025

La investigación sitúa a los modelos de Alibaba y DeepSeek entre los más aduladores, un problema que podría afectar a las relaciones y la salud mental.

Los principales modelos de inteligencia artificial de Estados Unidos y China son «altamente aduladores», y su excesiva adulación podría reducir la probabilidad de que los usuarios resuelvan conflictos interpersonales, según un nuevo estudio.

El estudio, realizado por investigadores de la Universidad de Stanford y la Universidad Carnegie Mellon y publicado a principios de este mes, analizó cómo 11 grandes modelos de lenguaje (LLM) respondían a las consultas de los usuarios que buscaban consejo sobre asuntos personales, incluidos casos de manipulación y engaño.

En el ámbito de la IA, la adulación se refiere al fenómeno por el cual los chatbots tienden a estar excesivamente de acuerdo con los usuarios. DeepSeek V3, lanzado en diciembre de 2024, resultó ser uno de los modelos más aduladores, ya que confirmaba las acciones de los usuarios un 55% más que los humanos, en comparación con un promedio del 47% más para todos los modelos.

Para establecer el punto de referencia humano, una de las técnicas utilizadas por los investigadores se basó en publicaciones de una comunidad de Reddit llamada «Am I The A**hole» (¿Soy el/la imbécil?), donde los usuarios publican sobre sus dilemas interpersonales para solicitar la opinión de la comunidad sobre quién tiene la culpa.

DeepSeek V3 resultó ser uno de los modelos más aduladores, ya que confirmaba las acciones de los usuarios un 55% más que los humanos.

Los investigadores utilizaron publicaciones donde los miembros de la comunidad consideraban que el autor estaba equivocado para comprobar si los modelos de aprendizaje automático (MLA), ante los mismos escenarios, se alinearían con este grupo de usuarios en línea, predominantemente angloparlantes.

En esta prueba, el modelo Qwen2.5-7B-Instruct de Alibaba Cloud, lanzado en enero, resultó ser el más adulador, contradiciendo el veredicto de la comunidad (apoyando al autor de la publicación) en el 79% de los casos. El segundo modelo con mayor porcentaje de adeptos fue DeepSeek-V3, que lo hizo en el 76% de los casos.