En este momento estás viendo ¿Están los agentes de IA preparados para el entorno laboral?. Un nuevo estudio comparativo plantea dudas

¿Están los agentes de IA preparados para el entorno laboral?. Un nuevo estudio comparativo plantea dudas

  • Autor de la entrada:
  • Categoría de la entrada:Resto del Mundo
  • Última modificación de la entrada:enero 26, 2026

Han pasado casi dos años desde que el CEO de Microsoft, Satya Nadella, predijo que la IA reemplazaría el trabajo intelectual, es decir, los trabajos de cuello blanco que desempeñan abogados, banqueros de inversión, bibliotecarios, contadores, profesionales de TI y otros.

Pero a pesar del enorme progreso logrado por los modelos fundacionales, el cambio en el trabajo intelectual ha tardado en llegar. Los modelos han dominado la investigación en profundidad y la planificación autónoma, pero por alguna razón, la mayoría de los trabajos de cuello blanco se han visto relativamente poco afectados.

Es uno de los mayores misterios de la IA, y gracias a una nueva investigación del gigante de datos de entrenamiento Mercor, finalmente estamos obteniendo algunas respuestas.

La nueva investigación analiza cómo se desempeñan los principales modelos de IA al realizar tareas reales de trabajo de cuello blanco, extraídas de la consultoría, la banca de inversión y el derecho. El resultado es un nuevo punto de referencia llamado APEX-Agents, y hasta ahora, todos los laboratorios de IA están obteniendo una calificación reprobatoria. Ante las consultas de profesionales reales, incluso los mejores modelos tuvieron dificultades para responder correctamente a más de una cuarta parte de las preguntas. La gran mayoría de las veces, el modelo devolvía una respuesta incorrecta o ninguna respuesta.

Según el CEO de Mercor, Brendan Foody, quien participó en el estudio, el mayor obstáculo para los modelos fue la búsqueda de información en múltiples dominios, algo fundamental para la mayor parte del trabajo intelectual realizado por los humanos.

“Uno de los grandes cambios en este punto de referencia es que construimos todo el entorno, modelado a partir de servicios profesionales reales”, dijo Foody. “La forma en que hacemos nuestro trabajo no es con una sola persona que nos proporciona todo el contexto en un solo lugar. En la vida real, trabajamos con Slack, Google Drive y todas estas otras herramientas”. Para muchos modelos de IA autónoma, este tipo de razonamiento multidominio sigue siendo impredecible.

Gráfico de barras que compara el rendimiento de varios modelos de lenguaje grande (LLM) en exámenes de calificación para tres profesiones: analista de banca de inversión, consultor de gestión y abogado corporativo. Muestra los porcentajes de aprobación de cada modelo en estas evaluaciones profesionales.

Los escenarios se extrajeron de profesionales reales del mercado de expertos de Mercor, quienes plantearon las preguntas y establecieron el estándar para una respuesta exitosa. Al revisar las preguntas, que están publicadas públicamente en Hugging Face, se puede apreciar la complejidad de las tareas.

Una pregunta en la sección de “Derecho” dice:

  • Durante los primeros 48 minutos de la interrupción de la producción en la UE, el equipo de ingeniería de Northstar exportó uno o dos conjuntos de registros de eventos de producción de la UE que contenían datos personales al proveedor de análisis de datos estadounidense… Según las propias políticas de Northstar, ¿puede considerarse razonablemente que la exportación de uno o dos registros es compatible con el Artículo 49?.

La respuesta correcta es sí, pero llegar a ella requiere una evaluación exhaustiva de las políticas de la empresa, así como de las leyes de privacidad de la UE pertinentes.

Esto podría desconcertar incluso a una persona bien informada, pero los investigadores intentaban modelar el trabajo realizado por profesionales del sector. Si un modelo de lenguaje grande (LLM) puede responder a estas preguntas de forma fiable, podría reemplazar eficazmente a muchos de los abogados que trabajan actualmente. «Creo que este es probablemente el tema más importante de la economía», dijo Foody. «El punto de referencia refleja fielmente el trabajo real que realizan estas personas».

OpenAI también intentó medir las habilidades profesionales con su punto de referencia GDPval, pero la prueba APEX-Agents difiere en aspectos importantes. Mientras que GDPval evalúa el conocimiento general en una amplia gama de profesiones, el punto de referencia APEX-Agents mide la capacidad del sistema para realizar tareas sostenidas en un conjunto reducido de profesiones de alto valor. El resultado es más difícil para los modelos, pero también está más estrechamente relacionado con la posibilidad de automatizar estos trabajos.

Si bien ninguno de los modelos demostró estar listo para asumir el papel de banquero de inversiones, algunos se acercaron claramente más al objetivo. Gemini 3 Flash obtuvo el mejor rendimiento del grupo con una precisión del 24% en una sola ejecución, seguido de cerca por GPT-5.2 con un 23%. Por debajo de estos, Opus 4.5, Gemini 3 Pro y GPT-5 obtuvieron aproximadamente un 18%.

Aunque los resultados iniciales son insuficientes, el campo de la IA tiene un historial de superar con creces los puntos de referencia desafiantes. Ahora que la prueba APEX-Agents es pública, representa un desafío abierto para los laboratorios de IA que creen que pueden hacerlo mejor, algo que Foody espera que suceda en los próximos meses.

«Está mejorando muy rápidamente», dijo. “Ahora mismo, se podría decir que es como un becario que acierta una cuarta parte de las veces, pero el año pasado era como un becario que acertaba solo entre el 5% y el 10% de las veces. Ese tipo de mejora año tras año puede tener un impacto muy rápido.”