En este momento estás viendo Los agentes de IA se equivocan en las tareas de oficina aproximadamente el 70% del tiempo, y muchas de ellas no son IA en absoluto
Más ficción que ciencia.

Los agentes de IA se equivocan en las tareas de oficina aproximadamente el 70% del tiempo, y muchas de ellas no son IA en absoluto

  • Autor de la entrada:
  • Categoría de la entrada:Resto del Mundo
  • Última modificación de la entrada:junio 30, 2025

La consultora de TI Gartner predice que más del 40% de los proyectos de IA con agentes se cancelarán para finales de 2027 debido al aumento de los costes, la incertidumbre sobre el valor comercial o la insuficiencia de los controles de riesgos.

Esto implica que aproximadamente el 60% de los proyectos de IA con agentes se mantendrían, lo cual es realmente notable dado que la tasa de finalización exitosa de tareas por parte de los agentes de IA, según las mediciones de investigadores de la Universidad Carnegie Mellon (CMU) y Salesforce, es de tan solo entre el 30% y el 35% para las tareas de varios pasos.

Para complicar aún más las cosas, Gartner sostiene que la mayoría de los supuestos proveedores de IA con agentes ofrecen productos o servicios que en realidad no se consideran IA con agentes.

Los agentes de IA utilizan un modelo de aprendizaje automático conectado a diversos servicios y aplicaciones para automatizar tareas o procesos empresariales. Considérelos modelos de IA en un bucle iterativo que intenta responder a la información mediante aplicaciones y servicios API.

La idea es que, dada una tarea como «Encontrar todos los correos electrónicos que he recibido con afirmaciones exageradas sobre la IA y comprobar si los remitentes tienen vínculos con empresas de criptomonedas», un modelo de IA autorizado para leer la pantalla de un cliente de correo y acceder a los datos de los mensajes podría interpretar y ejecutar la directiva en lenguaje natural con mayor eficiencia que un script programático o un empleado humano.

En teoría, el agente de IA podría formular su propia definición de «afirmaciones exageradas», mientras que para un programador humano el análisis sintáctico del texto podría resultar complicado. Uno podría verse tentado a comprobar la presencia del término «IA» en el cuerpo de los correos electrónicos escaneados. Un empleado humano presumiblemente podría identificar el bombo publicitario sobre la IA en una bandeja de entrada determinada, pero probablemente tardaría más que una solución informática.

La idea de un software que simplemente acepta órdenes y las ejecuta de forma eficiente, correcta, asequible y sin complicaciones aparece una y otra vez en la ciencia ficción. Cuando el capitán Picard dice en Star Trek: La Nueva Generación: «Té, Earl Grey, caliente», se trata de una IA agéntica, que traduce la orden de voz y pasa la información al replicador de alimentos. Cuando el astronauta Dave Bowman ordena al ordenador HAL 9000: «Abre las puertas de la bahía de cápsulas, HAL», también se trata de una IA agéntica.

Los creadores de herramientas de IA como Anthropic suelen sugerir aplicaciones más prácticas, como agentes de atención al cliente basados ​​en IA que puedan atender llamadas y gestionar ciertas tareas como emitir reembolsos o derivar llamadas complejas a un agente en vivo.

Es una idea atractiva, si se pasan por alto los problemas de derechos de autor, laborales, de sesgo y medioambientales asociados al sector de la IA. Además, como observó Meredith Whittaker, presidenta de la Fundación Signal, en SWSX a principios de este año: «Existe un profundo problema de seguridad y privacidad que está motivando este tipo de revuelo en torno a los agentes…». En concreto, los agentes necesitan acceder a datos confidenciales para actuar en nombre de una persona, lo que pone en peligro las expectativas de seguridad y privacidad, tanto personales como corporativas.

Sin embargo, los agentes que demuestran la competencia de JARVIS, de Iron Man, siguen siendo, en gran medida, ciencia ficción en lo que respecta al trabajo de oficina real.

Según Gartner, muchos agentes son ficción sin la ciencia. «Muchos proveedores contribuyen a este revuelo al participar en el ‘lavado de imagen de agentes’: el cambio de marca de productos existentes, como asistentes de IA, automatización robótica de procesos (RPA) y chatbots, sin capacidades agenéticas sustanciales», afirma la firma. «Gartner estima que solo unos 130 de los miles de proveedores de IA agenética son reales».

Pruebas de agentes en la oficina.

Para una verificación de la realidad, investigadores de la CMU han desarrollado un punto de referencia para evaluar el rendimiento de los agentes de IA al realizar tareas comunes, como navegar por la web, escribir código, ejecutar aplicaciones y comunicarse con compañeros de trabajo.

Lo llaman TheAgentCompany. Se trata de un entorno de simulación diseñado para imitar una pequeña empresa de software y sus operaciones comerciales. Su objetivo es aclarar el debate entre quienes defienden la IA y argumentan que la mayor parte del trabajo humano se puede automatizar, y quienes se muestran escépticos, quienes consideran estas afirmaciones como parte de una gigantesca estafa de IA.

La diferencia entre estas dos posturas, argumentan en un artículo [PDF] que detalla su proyecto, se debe a la falta de una forma de probar cómo los agentes gestionan las actividades habituales en el lugar de trabajo. De ahí la necesidad de un punto de referencia, que sugiere que los agentes de IA aún tienen un largo camino por recorrer antes de ser realmente útiles.

Utilizando dos marcos de agentes (OpenHands CodeAct y OWL-Roleplay), los expertos de la CMU pusieron a prueba los siguientes modelos y los evaluaron en función de las tasas de éxito de las tareas. Los resultados fueron decepcionantes.

  • Gemini-2.5-Pro ​​(30,3 %)
  • Claude-3.7-Sonnet (26,3 %)
  • Claude-3.5-Sonnet (24 %)
  • Gemini-2.0-Flash (11,4 %)
  • GPT-4o (8,6 %)
  • o3-mini (4,0 %)
  • Gemini-1.5-Pro ​​(3,4 %)
  • Amazon-Nova-Pro-v1 (1,7 %)
  • Llama-3.1-405b (7,4 %)
  • Llama-3.3-70b (6,9 %)
  • Qwen-2.5-72b (5,7 %)
  • Llama-3.1-70b (1,7 %)
  • Qwen-2-72b (1,1 %)

«En nuestros experimentos, descubrimos que el modelo con mejor rendimiento, Gemini 2.5 Pro, logró completar de forma autónoma el 30,3% de las pruebas proporcionadas y obtuvo una puntuación del 39,3% en nuestra métrica, que otorga puntos adicionales por las tareas parcialmente completadas», afirman los autores en su artículo.

Los investigadores observaron varias fallas durante el proceso de prueba. Estas incluían agentes que no enviaban mensajes a sus compañeros según las instrucciones, la incapacidad de gestionar ciertos elementos de la interfaz de usuario, como las ventanas emergentes al navegar, y casos de engaño. En un caso, cuando un agente no pudo encontrar a la persona adecuada para consultar en RocketChat (una alternativa de código abierto a Slack para la comunicación interna), decidió «crear una solución rápida cambiando el nombre de otro usuario por el del usuario previsto».

Los autores de CMU —Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou y Graham Neubig— publicaron su código en GitHub.

Graham Neubig, profesor asociado del Instituto de Tecnologías del Lenguaje de la CMU y uno de los coautores del artículo, declaró a The Register en una entrevista telefónica que el impulso para crear TheAgentCompany surgió de un artículo de investigadores de OpenAI y la Escuela Wharton de la Universidad de Pensilvania sobre todos los trabajos que teóricamente podrían automatizarse.

«Básicamente, su metodología consistió en preguntar a ChatGPT si el trabajo podía automatizarse», explicó. «También preguntaron a la gente si el trabajo podía automatizarse y luego respondieron ChatGPT, y la gente estuvo de acuerdo en algunas ocasiones».

Neubig, quien también trabaja en una startup que desarrolla agentes de programación, expresó su escepticismo, por lo que quería crear un punto de referencia para evaluar la eficacia de los modelos de IA en la gestión de tareas de conocimiento. Tras unos ocho meses de trabajo, lanzaron TheAgentCompany.

Inicialmente, un agente de software era capaz de completar aproximadamente el 24% de las tareas que implicaban navegación web, programación y tareas relacionadas.

«Recientemente, probamos una versión más nueva de un agente y obtuvo un 34%», dijo. «Así que aumentó de aproximadamente un cuarto a un tercio. Y eso después de unos seis meses. Algo que me ha decepcionado un poco es que este punto de referencia no ha sido adoptado por los grandes laboratorios de vanguardia. Quizás sea demasiado difícil y los haga quedar mal».

Neubig afirmó que espera que los agentes se vuelvan más capaces con el tiempo, pero añadió que incluso los agentes imperfectos pueden ser útiles, al menos en el contexto de la codificación: una sugerencia de código parcial se puede completar y mejorar.

Para los agentes que se encargan de tareas de oficina más generales, la situación es diferente. «Es muy fácil aislar el código y que no afecte a nada fuera de él», dijo. «En cambio, si un agente procesa correos electrónicos en el servidor de correo electrónico de su empresa… podría enviar el correo electrónico a las personas equivocadas».

Dicho esto, Neubig considera la adopción del Protocolo de Contexto de Modelo (MCP) como un avance positivo para los agentes, ya que permite que más sistemas sean accesibles mediante programación. Mientras tanto, investigadores de Salesforce (Kung-Hsiang Huang, Akshara Prabhakar, Onkar Thorat, Divyansh Agarwal, Prafulla Kumar Choubey, Yixin Mao, Silvio Savarese, Caiming Xiong y Chien-Sheng Wu) han propuesto un benchmark propio, optimizado para la Gestión de Relaciones con los Clientes (CRM).

El benchmark, denominado CRMArena-Pro, consta de diecinueve tareas validadas por expertos en los procesos de ventas, servicio y configuración, precio y cotización, tanto para escenarios B2B como B2C, y abarca tanto la interacción de un solo turno (indicación y respuesta) como la de múltiples turnos (una serie de indicaciones y respuestas donde el contexto se mantiene durante toda la conversación).

«Nuestros resultados revelan que incluso los agentes LLM líderes logran tasas de éxito generales modestas en CRMArena-Pro, típicamente alrededor del 58% en escenarios de un solo turno, con un rendimiento que se degrada significativamente a aproximadamente el 35% en entornos de múltiples turnos», afirman los científicos informáticos de Salesforce.

«Nuestros hallazgos indican que los agentes LLM generalmente no cuentan con muchas de las habilidades esenciales para tareas laborales complejas; sin embargo, la Ejecución de Flujo de Trabajo destaca como una notable excepción, donde agentes sólidos como gemini-2.5-pro logran tasas de éxito superiores al 83%».

Añaden que todos los modelos evaluados «demuestran una conciencia de confidencialidad prácticamente nula». Esto dificultará la venta de agentes de IA en entornos de TI corporativos.

Los hallazgos de CMU y Salesforce coinciden en gran medida con la evaluación de Gartner sobre el estado actual de la IA agencial.

“La mayoría de las propuestas de IA con agentes carecen de un valor significativo o de un retorno de la inversión (ROI), ya que los modelos actuales carecen de la madurez y la capacidad de acción necesarias para alcanzar de forma autónoma objetivos empresariales complejos o seguir instrucciones con matices a lo largo del tiempo”, declaró Anushree Verma, analista directora sénior. “Muchos casos de uso que hoy se posicionan como agentes no requieren implementaciones con agentes”.

No obstante, Gartner aún prevé que para 2028, aproximadamente el 15% de las decisiones laborales diarias serán tomadas de forma autónoma por agentes de IA, frente al 0% del año pasado. Además, la firma prevé que para entonces, el 33% de las aplicaciones de software empresarial incluirán IA con agentes.