Tras una o dos décadas de la nube, nos hemos acostumbrado a pagar por nuestra capacidad informática por megabyte. Con el auge de la IA, el ciclo promete repetirse, y aunque ahora parezca relativamente barata, puede que no siempre lo sea.
Las empresas que basan su modelo de IA como servicio cobran por la información por token, y lo hacen con pérdidas. Las ganancias llegarán tarde o temprano, ya sea directamente de tu bolsillo o de tus datos. Quizás te interese encontrar otras formas de obtener los beneficios de la IA sin depender de una corporación.
Cada vez más personas experimentan con la ejecución de estos modelos por sí mismas. Gracias a los avances en hardware y software, es más realista de lo que crees.
Piensa localmente.
Hay un cambio cultural que impulsa la adopción local de modelos de IA como servicio, y parte de él se debe a la desconfianza hacia las grandes tecnológicas. El Pew Research Center descubrió que el 81% de los estadounidenses teme que las empresas de IA hagan un mal uso de sus datos.
La Comisión Federal de Comercio consideró necesario advertir a las empresas de modelos de IA que cumplieran con sus compromisos en materia de datos de clientes. Esto fue antes de que la actual administración asumiera el poder y cambiara el panorama regulatorio.
OpenAI ha afirmado que olvidará tus chats si se lo pides, pero eso no significa que elimine esos datos. De hecho, no puede. Un tribunal ordenó a la empresa conservar sus registros de chat como parte del caso que actualmente libra contra el New York Times y otras publicaciones.
Incluso aquellas que empiezan con un enfoque en la ética y la privacidad se someterán a la dinámica del mercado. Anthropic amplió sus normas de retención de datos de 30 días a cinco años a finales de agosto, tan solo unos días después de anunciar que dotaría de memoria a su modelo de IA. También comenzó a entrenar sus modelos con datos de usuario. Sí, los usuarios pueden desactivar esta opción, pero se trata de políticas de exclusión voluntaria, no de inclusión voluntaria.
El argumento de la privacidad deriva hacia uno de soberanía, especialmente a medida que Estados Unidos reduce la regulación de la IA. Las empresas europeas están considerando crear sus propias alternativas. Por ejemplo, la empresa alemana de ingeniería Makandra desarrolló su propia IA gestionada localmente para garantizar que su uso cumpliera con las normas del RGPD.
Las empresas que abogan por los LLM locales también citan la democracia tecnológica como un factor impulsor. «La IA es una de las mayores fuentes de influencia que la humanidad ha tenido jamás», afirma Emre Can Kartal, ingeniero de crecimiento y líder de Jan, un proyecto de Menlo Research para desarrollar modelos gestionados localmente y las herramientas que los gestionan. «Nuestra misión es asegurarnos de que permanezca abierta y en manos de la gente, no concentrada en unos pocos gigantes tecnológicos».
El coste también es un factor. Las empresas de IA que venden potencia de cálculo a pérdida tienden a limitar la velocidad de los usuarios. Cualquiera que pague más de 100 dólares al mes a uno de los proveedores de modelos fundamentales y luego se quede sin servicio durante una sesión maratoniana de programación basada en IA comprenderá el problema. «Estaba experimentando extensamente con GPT-3 (antes de ChatGPT) y desarrollaba programas que hoy llamaríamos ‘agentes'», dice Yagil Burowski, fundador de LM Studio, una herramienta que permite a los usuarios descargar y ejecutar LLM. «Era un verdadero fastidio recordar que cada vez que mi código se ejecutaba costaba dinero, porque había muchísimo por explorar».
Impactos ambientales.
¿No te preocupa el impacto financiero de gastar demasiado en tokens? Quizás el impacto ambiental de la IA en la nube te haga reflexionar. Los centros de datos estadounidenses consumirán más del 9% de la electricidad del país para 2030, según la empresa de investigación EPRI. Muchos utilizan refrigeración por evaporación que absorbe grandes cantidades de agua. El cálculo general es de aproximadamente medio litro por conversación.
Las ventajas ambientales de ejecutar LLM tú mismo no residen tanto en el coste de carbono del entrenamiento, sino en la inferencia. Si utilizas un modelo fundacional de peso abierto, el entrenamiento ya se ha realizado. Pero cuanto más se use para la inferencia local, mayor será el impacto ambiental. El único líquido que probablemente se use para refrigerar el PC está en un circuito cerrado, por lo que no se desperdicia agua.
Hay algunas salvedades. Se sigue consumiendo energía localmente, y la fuente de donde se obtiene esa energía marca la diferencia. A alguien cuya red dependa de energía hidroeléctrica le irá mejor que a alguien cuya región queme carbón. También hay que considerar el ciclo de vida del carbono de los componentes del PC. La fabricación de semiconductores produce grandes cantidades de gases de efecto invernadero.
Optimización de los modelos.
Sin embargo, generalmente, cuanto más se utiliza la IA generativa (o incluso la IA clásica), más atractivo resulta un modelo local. Entonces, ¿qué se necesita para ejecutarlo eficazmente? Mucho depende de la precisión con la que se ejecute el modelo, y esto se puede ajustar mediante un concepto clave en los LLM: la cuantificación.
La cuantificación reduce la precisión de los valores de peso derivados de los nodos de una red neuronal. Esto reduce la capacidad de almacenamiento y computación necesaria para procesarlos. Se aumenta la cuantificación reduciendo la precisión de los números de punto flotante e incluso reemplazándolos con valores enteros puros.
Si bien la cuantificación disminuye la precisión de los algoritmos basados en redes neuronales que sustentan la IA generativa, el efecto no es sustancial. Y la mejora en potencia y rendimiento que se obtiene abre la posibilidad de ejecutarlo en sistemas más adecuados para la sala de servidores, el dispositivo edge o el hogar.
¿Cómo se ve todo esto en la práctica? La empresa de infraestructura de IA Modal afirma que, con precisión media (16 bits), un uso de VRAM de 2 GB por cada mil millones de parámetros es una apuesta razonable. Se pueden gestionar más parámetros aumentando la VRAM (una GPU Nvidia RTX 5090 tiene 32 GB de VRAM) o aumentando la cuantificación (reduciendo a la mitad, o incluso a la cuarta parte, la precisión del modelo). O ambas.
«¿El punto óptimo? El hardware empresarial de generaciones anteriores, como las tarjetas Quadro RTX usadas, suele superar a las nuevas GPU de consumo en VRAM por dólar», afirma Ramón Pérez, ingeniero de producto y director de Jan. «Pero no se pierdan los MacBook Pro M2, ya que su memoria unificada de 24 GB ejecuta modelos de más de 20.000 millones sorprendentemente bien».
Avances en software.
Sin embargo, el hardware por sí solo no es suficiente. Hoy en día, ejecutar LLM en una amplia gama de equipos solo es posible gracias a los avances en el software subyacente.
«En mi opinión, la pila ggml (p. ej., llama.cpp y whisper.cpp) ha sido la que ha tenido el mayor impacto en la posibilitación de la IA generativa local, con creces», afirmó Georgi Gerganov. Si actualmente se realiza inferencia del lado del cliente, es probable que Gerganov sea responsable de al menos una parte. Ggml es su biblioteca de bajo nivel para ejecutar modelos de aprendizaje automático en diferentes tipos de hardware.
Gerganov también mantiene llama.cpp, un paquete fundamental para ejecutar LLM en hardware con diferentes capacidades. Es compatible con CPU, pero también aprovecha las GPU si se tienen.
Ollama, una de las plataformas CLI más populares para ejecutar sus propios LLM, es una capa de desarrollador construida sobre llama.cpp. Ofrece la instalación en una sola línea de más de 200 LLM preconfigurados, lo que facilita a los desarrolladores de LLM la puesta en marcha de su propia IA generativa local.
No solo ha evolucionado la parte de bajo nivel de la pila. Para muchos, los proyectos locales de LLM comienzan con entornos fáciles de usar como Jan y LM Studio. Estos facilitan la adopción de IA de código abierto y su empaquetado en un formato accesible para todos. Eliminan elementos como la biblioteca CUDA de Nvidia y las dependencias de bajo nivel.
Esto significa que los usuarios ya no tienen que ser desarrolladores, afirma Burowski. «Creemos que muchos de nuestros usuarios no son ingenieros en absoluto. Mucha gente que visita nuestro servidor de Discord o nos contacta por correo electrónico no tiene experiencia en programación. Muchos abogados, profesores, profesionales de finanzas y muchos otros sectores utilizan esta tecnología».
Un modelo para todos.
Parece haber un modelo para todos, según su caso de uso y las capacidades del hardware. Modelos generales como Llama y Mistral ofrecen diversos recuentos de parámetros, desde pequeños hasta grandes. Google Gemma 2 reduce a dos mil millones de parámetros el trabajo en el dispositivo.
«A medida que los LLM más pequeños se vuelven más efectivos y la computación en el borde se vuelve más eficiente, las organizaciones más pequeñas pueden explorar el código abierto que ofrece GPT-OSS, Qwen, Gemma e incluso nuestros propios modelos Jan, que ofrecen un rendimiento cada vez más competitivo», afirma Can Kartal de Jan.
También existen modelos especializados para tareas como la codificación, como Qwen 2.5 Coder 7B y DeepSeek Coder V2.
«Utilizo la asistencia de código local para completar tareas y resolver preguntas a diario», afirma Gerganov.
Algunos modelos pueden ser muy específicos. Por ejemplo, hemos oído que los LLM de narrativa como Mythomax son buenos para juegos de rol (+10 XP al instalarlo).
¿Son los LLM locales lo suficientemente buenos?.
La pregunta es si todos estos modelos son mejores que los modelos más potentes que se ejecutan en la nube, o si deben serlo.
Andriy Mulyar, fundador de la empresa de IA Nomic, comenzó intentando crear modelos de IA locales. Su empresa desarrolló un modelo de código abierto, GPT4All, diseñado para funcionar localmente. Pero no logró nada al intentar vender servicios basados en él a clientes potenciales.
«Para casos de uso personal y de aficionados, es fantástico. Puedes obtener valor. Puedes escribir tu correo electrónico. Puedes demostrar cómo programar algo», dice sobre los LLM locales. Pero para él, ahí es donde termina.
«En última instancia, si quieres dedicarte a una tarea empresarial seria con estos modelos, no son de la calidad suficiente debido a la cantidad real de conocimiento que puedes integrar en un modelo de 20 mil millones de parámetros».
En su lugar, Nomic utiliza OpenAI con un acuerdo de retención cero, añadiendo los servicios propios de Nomic para interpretar los documentos especializados utilizados en los sectores de ingeniería y construcción a los que se dirige.
Analizando la situación.
Hay dos factores que mantienen a los modelos en la nube por delante de los locales. El primero es el tamaño.
«Los modelos más grandes siempre serán más inteligentes en general», coincide Pérez. «Los modelos más pequeños tienden a especializarse y adaptarse más rápido a las necesidades cambiantes mediante el ajuste fino y el aprendizaje de refuerzo. La mayoría de los usuarios y equipos no necesitan un modelo de 500 mil millones de parámetros para recordar cada detalle de la Segunda Guerra Mundial».
La generación aumentada por recuperación (RAG) es otra herramienta útil en este caso. Quienes tienen intereses particulares y crean sus propias bases de conocimiento para que los estudiantes de máster en Derecho las utilicen pueden obtener resultados impresionantes en áreas muy específicas. Esto incluye desde responder preguntas sobre Guerra y Paz para la clase universitaria hasta el asesoramiento experto obtenido al recopilar manuales técnicos.
También se pueden hacer muchas cosas con arquitecturas multiagente, donde se intercambian diferentes modelos centralizados para gestionar tareas específicas, ya sea resumir documentos legales, gestionar transcripciones, aprender sobre la historia de la Segunda Guerra Mundial o ser el maestro de mazmorras de tu última aventura de Cthulhu.
Marcos como Langchain y CrewAI están disponibles para quienes deseen adentrarse en esta orquestación LLM, lo que permite combinar agentes con diferentes funcionalidades especializadas.
Una ventaja frágil.
El segundo factor que mantiene a la vanguardia a los proveedores de modelos de nube fundamentales es la confidencialidad. Empresas como OpenAI protegen estrechamente sus modelos estrella para mantener su liderazgo en el mercado. La disrupción del mercado de DeepSeek el año pasado demostró lo frágil que es. Como ya dijo Google: «No hay foso».
Sin embargo, esa ventaja es mínima. «Las diferencias de calidad están disminuyendo muy rápidamente», afirma Gerganov. «Hoy, la calidad local es igual o mejor que la calidad de la nube hace un año. Seguirá mejorando».
Mientras tanto, puede lograr un gran avance siendo más intencional con sus indicaciones y con lo que introduce en el contexto de un LLM local (la memoria de trabajo por chat del modelo, que es limitada). «Modelos como GPT o Claude pueden manejar contextos muy desordenados e instrucciones poco claras», afirma Burowski. «Los modelos locales requieren una gestión más cuidadosa».
Su siguiente paso en el camino hacia la IA local.
Tanto si tiene un bufete de abogados que busca un sistema privado para gestionar trabajos confidenciales como si es un aficionado que intenta crear un gráfico de conocimiento personal, su camino hacia un LLM local debe comenzar por adaptar sus ambiciones a la realidad.
Comience con casos de uso claros donde sus necesidades de privacidad, coste y rendimiento justifiquen la implementación local. Seleccione las herramientas adecuadas para su nivel de experiencia técnica y utilice un modelo general que se ajuste a su perfil de hardware.
Cuando se calme la situación y hayamos superado el ciclo de la moda, la IA moderna seguirá representando una nueva era en la informática. Cuanto más dispuesto estés a experimentar con todo, desde la obtención de conocimientos especializados hasta los LLM alojados junto a tu escritorio, más cerca estarás de controlarlo.

