Pequeños cambios en los grandes modelos lingüísticos (LLM), que son la base de las aplicaciones de IA, pueden generar ahorros sustanciales de energía, según un informe publicado el lunes por la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO).
El informe de 35 páginas, titulado «Más inteligente, más pequeño, más fuerte: IA generativa eficiente en el uso de recursos y el futuro de la transformación digital», describe tres maneras en que los desarrolladores y usuarios de IA pueden reducir el consumo de energía de la tecnología.
1. Usar modelos más pequeños.
Los modelos más pequeños son tan inteligentes y precisos como los grandes, según el informe. Los modelos pequeños, adaptados a tareas específicas, pueden reducir el consumo de energía hasta en un 90%, según el informe.
Actualmente, los usuarios dependen de modelos grandes y de propósito general para todas sus necesidades, explicó. Las investigaciones demuestran que el uso de modelos más pequeños, adaptados a tareas específicas, como la traducción o el resumen, puede reducir significativamente el consumo de energía sin sacrificar el rendimiento. Se trata de un enfoque más inteligente, rentable y eficiente en el uso de recursos, continuó, que combina el modelo adecuado con la tarea correcta, en lugar de depender de un único sistema grande y multipropósito para todo.
Además, los modelos pequeños y energéticamente eficientes son más accesibles en entornos de bajos recursos con conectividad limitada, ofrecen tiempos de respuesta más rápidos y son más rentables.
2. Utilizar indicaciones y respuestas más breves.
El informe señala que optimizar las consultas de entrada y la longitud de las respuestas puede reducir el consumo de energía en más de un 50%. Añadió que acortar las entradas y las salidas también reduce el coste de ejecución de los LLM.
3. Utilizar la compresión para reducir el tamaño del modelo.
El informe explica que las técnicas de compresión de modelos, como la cuantificación, pueden lograr ahorros de energía de hasta un 44% al reducir la complejidad computacional. También reduce el coste de ejecución de los LLM al reducir su tamaño y hacerlos más rápidos.
¿Por qué los modelos más pequeños consumen menos energía?.
Los modelos de IA más pequeños consumen menos energía porque tienen menos trabajo que realizar. “Los modelos de IA más pequeños —lo que llamamos modelos de lenguaje pequeños— requieren menos parámetros, menos memoria y un rendimiento de GPU significativamente menor”, explicó Jim Olsen, director de tecnología de ModelOp, una empresa de software de gobernanza con sede en Chicago.
“Esto se traduce en un menor consumo de energía tanto durante el entrenamiento como durante la inferencia”, declaró. “No se ejecutan miles de millones de operaciones por token. Se optimiza la precisión en un dominio más reducido, lo que se traduce en costes de computación más sostenibles”.
Los modelos más grandes tienen exponencialmente más parámetros que los modelos más pequeños, por lo que cada vez que se le formula una pregunta a un modelo, este debe realizar cálculos matemáticos con todos sus parámetros para generar una respuesta.
“Más parámetros implican más cálculos, lo que requiere mayor potencia de procesamiento de las GPU y, por lo tanto, consume más energía”, afirmó Wyatt Mayham, director de consultoría de IA en Northwest AI Consulting (NAIC), proveedor global de servicios de consultoría de IA.
“Es el equivalente digital a un motor V8 que consume más gasolina que uno de cuatro cilindros, incluso al ralentí”, declaró. “Un modelo más pequeño y especializado simplemente tiene menos carga de trabajo computacional para cada tarea”.
Sagar Indurkhya, científico jefe de Virtualitics, una empresa de análisis basada en IA, en Pasadena, California, sostuvo que, si bien los LLM más pequeños no suelen tener el mismo rendimiento que los modelos más grandes o de vanguardia, es posible ajustarlos con precisión con datos relevantes específicos, como datos confidenciales que no se pueden compartir fuera de la empresa, de modo que el rendimiento del modelo ajustado en tareas muy específicas sea competitivo con el de los modelos de vanguardia.
Sin embargo, también declaró: “Si el objetivo es reducir el consumo de energía de los agentes de IA, el uso y la adaptación de LLM más pequeños es un camino a seguir que cualquier empresa debería considerar cuidadosamente”.
Reducir las indicaciones conversacionales ahorra energía.
Aunque a los modelos de IA se les suele llamar chatbots, no conviene ser conversador con la IA. “El modelo entiende tu intención”, afirmó Mel Morris, director ejecutivo de Corpora.ai, creadora de un motor de búsqueda de IA, en Derby, Inglaterra.
“No necesita palabras amables”, declaró. “En realidad no las necesita. No le sirve de nada, pero tiene que pasar esas palabras adicionales a su modelo, y eso consume tiempo de cálculo”.
Ian Holmes, director y líder global de soluciones contra fraudes empresariales en SAS, empresa de software especializada en analítica, inteligencia artificial y soluciones de gestión de datos, en Cary, Carolina del Norte, coincidió en que la brevedad de las indicaciones puede ahorrar energía. “Puede tener un gran impacto en la reducción del consumo energético total de las interacciones de IA”, declaró. “Cuanto más innecesariamente compleja sea una indicación, más potencia computacional necesitará el LLM para interpretarla y responder”. “Es fácil tratar a un LLM como a un amigo experto, participando en largas conversaciones, pero esto puede aumentar involuntariamente la carga de trabajo del modelo”, afirmó. “Mantener las indicaciones concisas y enfocadas ayuda a reducir la cantidad de datos que el modelo necesita procesar. Esto, a su vez, puede reducir la potencia de procesamiento necesaria para generar una respuesta”.
Sin embargo, las indicaciones más breves no siempre son prácticas. “Muchas indicaciones contienen contexto o ejemplos innecesarios que podrían eliminarse”, reconoció Charles Yeomans, director ejecutivo y cofundador de AutoBeam, una empresa de compactación y optimización de transmisión de datos, en Moraga, California.
“Sin embargo, algunas tareas requieren indicaciones detalladas para mayor precisión”, declaró. “La clave es eliminar la redundancia, no sacrificar la información necesaria”.
Puede haber una compensación al usar indicaciones más cortas, añadió Axel Abulafia, director comercial de CloudX, una empresa de ingeniería de software y soluciones de IA en Manalapan, Nueva Jersey. «Las indicaciones más cortas son mejores en teoría, pero si la tasa de error de estas indicaciones es el doble o el triple que la de una indicación solo un 50 % más grande, la ecuación es clara», declaró. «Diría que las indicaciones más inteligentes pueden ahorrar mucha más energía que las más pequeñas».
El reto radica en mantener la calidad, añadió Mayham, de la NAIC. «Una indicación demasiado breve puede carecer del contexto necesario para que el modelo proporcione una respuesta útil o precisa», afirmó. «Asimismo, forzar una respuesta artificialmente corta podría privarla de matices importantes».
«Para los desarrolladores, esto se convierte en un ejercicio de equilibrio», continuó. «Necesitan diseñar indicaciones concisas, pero con la suficiente riqueza contextual para cumplir con su función. Para muchas tareas rutinarias, esto es posible, pero para la resolución de problemas complejos, las interacciones más largas y detalladas suelen ser inevitables».
Riesgos y beneficios de la compresión de modelos.
La recomendación de la UNESCO de reducir el tamaño de los modelos también puede tener inconvenientes. «El principal riesgo es que se puede comprimir demasiado un modelo y perjudicar su rendimiento», señaló Mayham. «Una poda o cuantificación demasiado agresiva puede provocar una disminución de la precisión, la capacidad de razonamiento lógico o los matices, lo que podría hacer que el modelo no sea adecuado para su propósito previsto. Existe un delicado equilibrio entre eficiencia y capacidad». Además, continuó, implementar técnicas de compresión de forma eficaz requiere una amplia experiencia técnica y mucha experimentación. «No existe una solución universal», afirmó. «La estrategia de compresión adecuada depende de la arquitectura del modelo específico y de la aplicación de destino. Esto puede suponer un gran obstáculo para equipos sin talento especializado en ingeniería de IA/ML».
La clave para reducir el consumo de energía de la IA reside en combinar múltiples optimizaciones (modelos más pequeños, compresión, generación de solicitudes eficiente, mejor utilización del hardware) para multiplicar los ahorros, sostuvo Yeomans de AutoBeam.
«También se debe considerar el almacenamiento en caché de respuestas comunes y el uso de modelos especializados para tareas específicas», añadió, «en lugar de LLM de propósito general para todo».
«Aunque sea tentador aplicar siempre LLM a cada problema, una buena regla general es que las soluciones deben ir de lo simple a lo complejo», añadió Abulafia de CloudX. Hay muchos problemas que se pueden resolver con algoritmos de eficacia comprobada. Puedes usarlos como punto de partida y, a partir de ahí, aumentar la complejidad. Primero, a modelos más pequeños y ajustados, y solo después, a modelos más grandes. Siempre trabajando con inteligencia y teniendo en cuenta que más grande no siempre es mejor.

