Publicado el 10 de noviembre de 2025
Cuando compilas sitios web y apps web con IA, es posible que hayas creado un prototipo con un modelo de lenguaje grande (LLM), como ChatGPT, Gemini o Claude, y, luego, hayas implementado ese prototipo en producción. Un LLM es un tipo de modelo de base, un modelo muy grande previamente entrenado, que requiere muchos recursos, es costoso y, a menudo, no es la mejor herramienta para el trabajo. Los modelos más pequeños, locales y específicos para tareas consumen menos recursos y, a menudo, ofrecen respuestas mejores y más rápidas a un costo menor que los modelos fundacionales "universales".
Cuando eliges un mejor modelo, eliges un enfoque más sustentable, al que llamaremos IA de tamaño adecuado. La IA del tamaño adecuado ofrece lo siguiente:

- Menor latencia para los usuarios cuando los modelos se ejecutan de forma local, en lugar de realizar un viaje de ida y vuelta a servidores distantes.
- Reducción de los costos de la API, ya que no pagas por las funciones que no usas.
- Acceso sin conexión a la app para modelos integrados en el dispositivo y del cliente, lo que crea experiencias más confiables
Si bien los modelos de base se destacan en el razonamiento y la conversación generales, usarlos para tareas específicas (como la clasificación de texto o la extracción de datos) es como usar un auto de Fórmula 1 para ir a McDonald's. Técnicamente, es posible, pero muy ineficiente (y resulta incómodo para los pasajeros). En cambio, adapta tu implementación a tus necesidades reales.
Las prácticas de IA sostenibles y las experiencias del usuario óptimas no son prioridades competitivas. Son la misma prioridad expresada de manera diferente.
Una forma de evaluar el impacto ambiental de la IA es la siguiente:
- Entrenamiento: El entrenamiento inicial del modelo requiere recursos significativos. El proveedor del modelo administra esta optimización y este "aprendizaje".
- Inferencias: Realizas inferencias cuando proporcionas un modelo entrenado con una entrada nueva (una instrucción) para generar una salida (el texto de respuesta). En comparación con el entrenamiento, la inferencia usa muchos menos recursos.
El entrenamiento es un costo fijo, pero el costo de la inferencia se ajusta según el uso, lo que hace que la elección del modelo sea un factor clave que puedes controlar. Puedes tomar decisiones fundamentadas para tu caso de uso y para el planeta, y apoyar el desarrollo responsable de la IA.
Implementa la IA que prioriza al usuario
En lugar de crear una IA que priorice el modelo, crea una IA que priorice al usuario. Considera qué tareas podría realizar la IA para que tu app sea más fácil de usar o para reducir la carga de trabajo de los usuarios o la cantidad de cambios de contexto que deben realizar.
Por ejemplo, supongamos que diriges una empresa llamada Rewarding Eats, que otorga puntos a los usuarios por comer en ciertos restaurantes. Podrías usar la IA para analizar una imagen de un recibo y obtener el nombre del restaurante y el gasto total, en lugar de pedirles a tus clientes que ingresen esa información de forma manual. Es probable que esta función mejore la experiencia del usuario de tu aplicación.
Cuando crees una IA que priorice al usuario, haz lo siguiente:
- Define los requisitos de la tarea. ¿Qué tareas debe realizar la IA? ¿Son completamente basadas en texto o incluyen componentes visuales o de audio?
- Elige el modelo adecuado. Los diferentes modelos son más eficientes en diferentes tareas y, a menudo, tienen un menor impacto.
- Comprende las restricciones de implementación. ¿Dónde tiene sentido que resida el modelo? ¿Dónde se ubicarán los datos? ¿El usuario tendrá una conexión confiable?
- Implementa la mejora progresiva para obtener la experiencia del usuario más rápida y segura.
Define los requisitos de tu tarea
En lugar de buscar "lugares para usar la IA" o "funciones potenciadas por IA para agregar", deberías preguntarte: "¿Cómo sería una experiencia sin fricciones?". Según el tamaño de tu empresa, esta debería ser una conversación con los administradores de productos.
Tomemos como ejemplo nuestra app Rewarding Eats. La primera pregunta que debes hacerte es: "¿Necesitamos IA para eso?".

Un modelo base podría redactar un gasto a partir de un recibo con algunas indicaciones. Sin embargo, una forma más eficiente de controlar esto no requiere un modelo grande. Usa el reconocimiento óptico de caracteres (OCR) para analizar el texto de la imagen y pasarlo a un modelo específico de la tarea, como un modelo de clasificación de texto, para identificar los elementos y los costos del texto analizado. Esto se puede hacer en el dispositivo del usuario sin enviar datos a los servidores.
En la mayoría de los casos, si crees que necesitas un modelo fundamental, probablemente debas dividir el problema en tareas separadas.
Elige el modelo adecuado
Una vez que sepas qué tareas quieres completar, podrás elegir el tipo de modelo y el modelo adecuados para el trabajo. Si bien es más fácil recurrir a un modelo fundamental, los modelos más pequeños realizan el trabajo de forma más rápida y económica. Cuando comprendes tu tarea, puedes elegir el modelo pequeño y específico para la tarea adecuado para realizar el trabajo.
Hay muchos tipos de modelos disponibles, así que lee el análisis detallado sobre la selección de modelos para determinar la opción adecuada para tu proyecto.
Elige la ubicación adecuada para tu modelo
Si bien los modelos de base son demasiado grandes para ejecutarse incluso en las computadoras de escritorio más potentes, los LLM más pequeños, los modelos de lenguaje pequeños (SLM) y los modelos específicos para tareas se pueden ejecutar en muchos dispositivos.
| No recomendado | No recomendado | Recomendado | |
| Modelo de lenguaje pequeño (SLM) | Recomendado | Recomendado | Recomendado |
| Modelos de base | No recomendado | No recomendado | Recomendado |
Los SLM son convenientes, pero poco comunes. Existen miles de millones de teléfonos celulares, y solo los modelos más recientes y costosos pueden ejecutar SLM locales. Ese es un pequeño porcentaje del mercado.
Usa esta matriz para determinar la mejor ubicación para tu modelo:
| Métrica | Del cliente o local | Del servidor o remoto |
|---|---|---|
| Conectividad | Modo sin conexión obligatorio, redes irregulares, instalaciones seguras | Entornos siempre en línea |
| Ubicación de los datos | Procesamiento de fotos de usuarios, entrada de texto y archivos personales | Trabajar con documentos y bases de datos del servidor |
| Patrón de uso | Llamadas de alta frecuencia (traducción de chat, análisis en tiempo real) | Tareas complejas ocasionales |
| Ancho de banda | Usuarios de dispositivos móviles, áreas rurales y archivos de salida grandes | Banda ancha ilimitada, respuestas pequeñas |
| Privacidad y seguridad | Datos regulados (salud, finanzas), cumplimiento estricto | Datos comerciales estándar y una infraestructura de seguridad establecida |
| Impacto en la batería | Apps para computadoras, casos de uso tolerantes al consumo de energía | Apps para dispositivos móviles con batería limitada |
Inferencia del cliente, mejora progresiva e híbrida
Con bibliotecas como TensorFlow.js, Transformers.js y ONNX.js, tus aplicaciones pueden realizar inferencias del lado del cliente con datos del usuario. Convierte tu modelo al formato adecuado y, luego, alójalo de forma remota o incorpóralo directamente en tu app. La mejor experiencia del usuario utiliza una combinación fluida de modelos precargados, descargables y remotos, de modo que los usuarios puedan trabajar sin problemas.
Incluso si se prefiere usar un modelo remoto alojado en la nube por motivos de seguridad (o necesidades de tamaño), tener suficientes modelos locales disponibles cuando se pierde la conectividad puede crear una experiencia flexible.
En última instancia, existen tres enfoques para la implementación de modelos. Elige la mejor opción para tus necesidades.
- Local-first: La app tiene requisitos sin conexión, uso de alta frecuencia y datos sensibles.
- Prioridad remota: Razonamiento complejo, modelos grandes, uso poco frecuente
- Enfoque híbrido: Descarga modelos pequeños mientras usas APIs y cambia cuando esté todo listo.
Próximos pasos
La tecnología suele seguir a la implementación. La mejor manera en que los desarrolladores pueden influir en la dirección de la industria, en favor de una mejor experiencia para el usuario y un mejor resultado para nuestro mundo, es la siguiente:
- Elige la herramienta adecuada para el trabajo. Los modelos más pequeños consumen menos recursos y, a menudo, funcionan tan bien como los modelos grandes, con la ayuda de la ingeniería de instrucciones. Tienen una latencia reducida.
- Exige transparencia en los costos de inferencia y entrenamiento. Aboga por tu empresa para que priorice los modelos que divulgan estas cifras.
- Coloca el modelo cerca de los datos para reducir el costo de los viajes de ida y vuelta a un servidor.
- Usa lo que ya está disponible. Si ya hay modelos en el dispositivo, se deben priorizar esos modelos primero.
Recursos
Si quieres profundizar en estos temas, usé los siguientes recursos para escribir este artículo. Son excelentes para leer.
Rendimiento y desarrollo del modelo
- Small Language Models are the Future of Agentic AI (artículo de investigación de NVIDIA): Investigación de respaldo sobre las capacidades de los SLM
- Auditoría de impacto ambiental de Mistral: Transparencia en los costos de entrenamiento y de inferencia
- Estudio de costos de inferencia de Google: Medición del impacto ambiental
- Estudio de la naturaleza: Comparación del impacto ambiental de la IA y el ser humano: Análisis comparativo de la finalización de tareas por parte de la IA y el ser humano
- Debate sobre el impacto ambiental de la IA: Contexto sobre el discurso ambiental
Herramientas de implementación y desarrollo
- Carga de modelos de TensorFlow.js: Implementación de modelos del cliente
- Ejemplos de Transformers.js: Inferencias de modelos basadas en el navegador
- Entorno de ejecución de ONNX.js: Implementación de modelos en múltiples plataformas
- Guía de IA híbrida de Firebase: Integración de modelos locales y remotos