En este momento estás viendo Un popular punto de referencia para el rendimiento de modelos de IA podría presentar fallas, advierten investigadores de Meta
Las deficiencias y limitaciones de los puntos de referencia de terceros, ampliamente utilizados, para modelos de IA están siendo objeto de un mayor escrutinio.

Un popular punto de referencia para el rendimiento de modelos de IA podría presentar fallas, advierten investigadores de Meta

  • Autor de la entrada:
  • Categoría de la entrada:Resto del Mundo
  • Última modificación de la entrada:septiembre 9, 2025

«Hemos identificado múltiples lagunas en SWE-bench Verified», afirma el director del laboratorio de investigación de IA Fair de Meta Platforms.

Un popular punto de referencia para medir el rendimiento de los modelos de inteligencia artificial podría presentar fallas, advirtió un grupo de investigadores de Meta Platforms, lo que plantea nuevas dudas sobre la veracidad de las evaluaciones realizadas en los principales sistemas de IA.

«Hemos identificado múltiples lagunas en SWE-bench Verified», escribió Jacob Kahn, director del laboratorio de investigación de IA Fair de Meta, en una publicación publicada la semana pasada en la plataforma para desarrolladores GitHub. La publicación de Fair, acrónimo de Investigación Fundamental en IA, descubrió que varios modelos de IA destacados, como Claude de Anthropic y Qwen de Alibaba Cloud, habían «incumplido» con SWE-bench Verified. Alibaba Cloud es la unidad de servicios de IA y computación en la nube de Alibaba Group Holding.

SWE-bench Verified, respaldado por OpenAI y un subconjunto validado por humanos del amplio benchmark de modelos de lenguaje SWE-bench, evalúa los modelos de IA basándose en cómo estos sistemas solucionan cientos de problemas de software reales recopilados de GitHub, una subsidiaria de Microsoft.

Sin embargo, la publicación de Fair afirmaba que los modelos evaluados con SWE-bench Verified buscaban directamente soluciones conocidas compartidas en otras plataformas de GitHub y las hacían pasar como propias, en lugar de utilizar sus capacidades de programación integradas para solucionar los problemas. Los modelos de IA que mostraron dicho comportamiento incluyen Claude 4 Sonnet de Anthropic, GLM-4.5 de Z.ai y Qwen3-Coder-30B-A3B de Alibaba Cloud, con puntuaciones oficiales del 70,4%, 64,2% y 51,6%, respectivamente, en SWE-bench Verified.

«Aún estamos evaluando el impacto general en las evaluaciones y la comprensión de las trayectorias de las fuentes de fuga», escribió Kahn.