Gracias por seguir Google I/O. Mira contenido a pedido.

Se usó la API de Cloud Translation para traducir esta página.

IA del tamaño adecuado: Buena para la empresa, los usuarios y el planeta

Rachel Lee Nabors

Publicado el 10 de noviembre de 2025

Cuando compilas sitios web y apps web con IA, es posible que hayas creado un prototipo con un modelo de lenguaje grande (LLM), como ChatGPT, Gemini o Claude, y, luego, hayas implementado ese prototipo en producción. Un LLM es un tipo de modelo de base, un modelo muy grande previamente entrenado, que requiere muchos recursos, es costoso y, a menudo, no es la mejor herramienta para el trabajo. Los modelos más pequeños, locales y específicos para tareas consumen menos recursos y, a menudo, ofrecen respuestas mejores y más rápidas a un costo menor que los modelos fundacionales "universales".

Cuando eliges un mejor modelo, eliges un enfoque más sustentable, al que llamaremos IA de tamaño adecuado. La IA del tamaño adecuado ofrece lo siguiente:

Menor latencia para los usuarios cuando los modelos se ejecutan de forma local, en lugar de realizar un viaje de ida y vuelta a servidores distantes.
Reducción de los costos de la API, ya que no pagas por las funciones que no usas.
Acceso sin conexión a la app para modelos integrados en el dispositivo y del cliente, lo que crea experiencias más confiables

Si bien los modelos de base se destacan en el razonamiento y la conversación generales, usarlos para tareas específicas (como la clasificación de texto o la extracción de datos) es como usar un auto de Fórmula 1 para ir a McDonald's. Técnicamente, es posible, pero muy ineficiente (y resulta incómodo para los pasajeros). En cambio, adapta tu implementación a tus necesidades reales.

Las prácticas de IA sostenibles y las experiencias del usuario óptimas no son prioridades competitivas. Son la misma prioridad expresada de manera diferente.

Una forma de evaluar el impacto ambiental de la IA es la siguiente:

Entrenamiento: El entrenamiento inicial del modelo requiere recursos significativos. El proveedor del modelo administra esta optimización y este "aprendizaje".
Inferencias: Realizas inferencias cuando proporcionas un modelo entrenado con una entrada nueva (una instrucción) para generar una salida (el texto de respuesta). En comparación con el entrenamiento, la inferencia usa muchos menos recursos.

El entrenamiento es un costo fijo, pero el costo de la inferencia se ajusta según el uso, lo que hace que la elección del modelo sea un factor clave que puedes controlar. Puedes tomar decisiones fundamentadas para tu caso de uso y para el planeta, y apoyar el desarrollo responsable de la IA.

Implementa la IA que prioriza al usuario

En lugar de crear una IA que priorice el modelo, crea una IA que priorice al usuario. Considera qué tareas podría realizar la IA para que tu app sea más fácil de usar o para reducir la carga de trabajo de los usuarios o la cantidad de cambios de contexto que deben realizar.

Por ejemplo, supongamos que diriges una empresa llamada Rewarding Eats, que otorga puntos a los usuarios por comer en ciertos restaurantes. Podrías usar la IA para analizar una imagen de un recibo y obtener el nombre del restaurante y el gasto total, en lugar de pedirles a tus clientes que ingresen esa información de forma manual. Es probable que esta función mejore la experiencia del usuario de tu aplicación.

Cuando crees una IA que priorice al usuario, haz lo siguiente:

Define los requisitos de la tarea. ¿Qué tareas debe realizar la IA? ¿Son completamente basadas en texto o incluyen componentes visuales o de audio?
Elige el modelo adecuado. Los diferentes modelos son más eficientes en diferentes tareas y, a menudo, tienen un menor impacto.
Comprende las restricciones de implementación. ¿Dónde tiene sentido que resida el modelo? ¿Dónde se ubicarán los datos? ¿El usuario tendrá una conexión confiable?
Implementa la mejora progresiva para obtener la experiencia del usuario más rápida y segura.

Define los requisitos de tu tarea

En lugar de buscar "lugares para usar la IA" o "funciones potenciadas por IA para agregar", deberías preguntarte: "¿Cómo sería una experiencia sin fricciones?". Según el tamaño de tu empresa, esta debería ser una conversación con los administradores de productos.

Tomemos como ejemplo nuestra app Rewarding Eats. La primera pregunta que debes hacerte es: "¿Necesitamos IA para eso?".

Un modelo base podría redactar un gasto a partir de un recibo con algunas indicaciones. Sin embargo, una forma más eficiente de controlar esto no requiere un modelo grande. Usa el reconocimiento óptico de caracteres (OCR) para analizar el texto de la imagen y pasarlo a un modelo específico de la tarea, como un modelo de clasificación de texto, para identificar los elementos y los costos del texto analizado. Esto se puede hacer en el dispositivo del usuario sin enviar datos a los servidores.

En la mayoría de los casos, si crees que necesitas un modelo fundamental, probablemente debas dividir el problema en tareas separadas.

Elige el modelo adecuado

Una vez que sepas qué tareas quieres completar, podrás elegir el tipo de modelo y el modelo adecuados para el trabajo. Si bien es más fácil recurrir a un modelo fundamental, los modelos más pequeños realizan el trabajo de forma más rápida y económica. Cuando comprendes tu tarea, puedes elegir el modelo pequeño y específico para la tarea adecuado para realizar el trabajo.

Hay muchos tipos de modelos disponibles, así que lee el análisis detallado sobre la selección de modelos para determinar la opción adecuada para tu proyecto.

Elige la ubicación adecuada para tu modelo

Si bien los modelos de base son demasiado grandes para ejecutarse incluso en las computadoras de escritorio más potentes, los LLM más pequeños, los modelos de lenguaje pequeños (SLM) y los modelos específicos para tareas se pueden ejecutar en muchos dispositivos.

Tipo de modelo	Ya está en el dispositivo (del cliente)	Descargar en el dispositivo	Modelo alojado en el servidor
Modelo específico para la tarea	No recomendado	No recomendado	Recomendado
Modelo de lenguaje pequeño (SLM)	Recomendado	Recomendado	Recomendado
Modelos de base	No recomendado	No recomendado	Recomendado

Los SLM son convenientes, pero poco comunes. Existen miles de millones de teléfonos celulares, y solo los modelos más recientes y costosos pueden ejecutar SLM locales. Ese es un pequeño porcentaje del mercado.

Usa esta matriz para determinar la mejor ubicación para tu modelo:

Métrica	Del cliente o local	Del servidor o remoto
Conectividad	Modo sin conexión obligatorio, redes irregulares, instalaciones seguras	Entornos siempre en línea
Ubicación de los datos	Procesamiento de fotos de usuarios, entrada de texto y archivos personales	Trabajar con documentos y bases de datos del servidor
Patrón de uso	Llamadas de alta frecuencia (traducción de chat, análisis en tiempo real)	Tareas complejas ocasionales
Ancho de banda	Usuarios de dispositivos móviles, áreas rurales y archivos de salida grandes	Banda ancha ilimitada, respuestas pequeñas
Privacidad y seguridad	Datos regulados (salud, finanzas), cumplimiento estricto	Datos comerciales estándar y una infraestructura de seguridad establecida
Impacto en la batería	Apps para computadoras, casos de uso tolerantes al consumo de energía	Apps para dispositivos móviles con batería limitada

Inferencia del cliente, mejora progresiva e híbrida

Con bibliotecas como TensorFlow.js, Transformers.js y ONNX.js, tus aplicaciones pueden realizar inferencias del lado del cliente con datos del usuario. Convierte tu modelo al formato adecuado y, luego, alójalo de forma remota o incorpóralo directamente en tu app. La mejor experiencia del usuario utiliza una combinación fluida de modelos precargados, descargables y remotos, de modo que los usuarios puedan trabajar sin problemas.

Incluso si se prefiere usar un modelo remoto alojado en la nube por motivos de seguridad (o necesidades de tamaño), tener suficientes modelos locales disponibles cuando se pierde la conectividad puede crear una experiencia flexible.

En última instancia, existen tres enfoques para la implementación de modelos. Elige la mejor opción para tus necesidades.

Local-first: La app tiene requisitos sin conexión, uso de alta frecuencia y datos sensibles.
Prioridad remota: Razonamiento complejo, modelos grandes, uso poco frecuente
Enfoque híbrido: Descarga modelos pequeños mientras usas APIs y cambia cuando esté todo listo.

Próximos pasos

La tecnología suele seguir a la implementación. La mejor manera en que los desarrolladores pueden influir en la dirección de la industria, en favor de una mejor experiencia para el usuario y un mejor resultado para nuestro mundo, es la siguiente:

Elige la herramienta adecuada para el trabajo. Los modelos más pequeños consumen menos recursos y, a menudo, funcionan tan bien como los modelos grandes, con la ayuda de la ingeniería de instrucciones. Tienen una latencia reducida.
Exige transparencia en los costos de inferencia y entrenamiento. Aboga por tu empresa para que priorice los modelos que divulgan estas cifras.
Coloca el modelo cerca de los datos para reducir el costo de los viajes de ida y vuelta a un servidor.
Usa lo que ya está disponible. Si ya hay modelos en el dispositivo, se deben priorizar esos modelos primero.

Recursos

Si quieres profundizar en estos temas, usé los siguientes recursos para escribir este artículo. Son excelentes para leer.

Rendimiento y desarrollo del modelo

Small Language Models are the Future of Agentic AI (artículo de investigación de NVIDIA): Investigación de respaldo sobre las capacidades de los SLM
Auditoría de impacto ambiental de Mistral: Transparencia en los costos de entrenamiento y de inferencia
Estudio de costos de inferencia de Google: Medición del impacto ambiental
Estudio de la naturaleza: Comparación del impacto ambiental de la IA y el ser humano: Análisis comparativo de la finalización de tareas por parte de la IA y el ser humano
Debate sobre el impacto ambiental de la IA: Contexto sobre el discurso ambiental

Herramientas de implementación y desarrollo

Carga de modelos de TensorFlow.js: Implementación de modelos del cliente
Ejemplos de Transformers.js: Inferencias de modelos basadas en el navegador
Entorno de ejecución de ONNX.js: Implementación de modelos en múltiples plataformas
Guía de IA híbrida de Firebase: Integración de modelos locales y remotos