IA dimensionada corretamente: boa para empresas, usuários e o planeta

Publicado em: 10 de novembro de 2025

Ao criar sites e apps da Web com IA, talvez você tenha criado um protótipo com um modelo de linguagem grande (LLM), como ChatGPT, Gemini ou Claude, e depois implantado essa implementação na produção. Um LLM é um tipo de modelo de fundação, um modelo muito grande e pré-treinado que exige muitos recursos, é caro e geralmente não é a melhor ferramenta para o trabalho. Modelos menores, locais e específicos para tarefas consomem menos recursos e geralmente oferecem respostas melhores e mais rápidas a um custo menor do que modelos de base "universais".

Ao escolher um modelo melhor, você está escolhendo uma abordagem mais sustentável, que chamamos de IA dimensionada corretamente. A IA do tamanho certo oferece:

  • Latência menor para os usuários quando os modelos são executados localmente, em vez de fazer viagens de ida e volta para servidores distantes.
  • Custos de API reduzidos quando você não paga por recursos não utilizados.
  • Acesso off-line a apps para modelos do lado do cliente e no dispositivo, criando experiências mais confiáveis.

Embora os modelos de fundação sejam excelentes para raciocínio geral e conversas, usá-los para tarefas específicas (como classificação de texto ou extração de dados) é como usar um carro de Fórmula 1 para ir ao McDonald's. Isso é tecnicamente possível, mas muito ineficiente (e desconfortável para os passageiros). Em vez disso, ajuste sua implementação às suas necessidades reais.

Práticas de IA sustentáveis e experiências ideais para o usuário não são prioridades conflitantes. Elas têm a mesma prioridade, mas são expressas de maneiras diferentes.

Uma maneira de avaliar o impacto ambiental da IA é:

  • Treinamento: o treinamento inicial do modelo exige muitos recursos. Essa otimização e "aprendizagem" são gerenciadas pelo provedor do modelo.
  • Inferência: você realiza a inferência quando fornece a um modelo treinado uma nova entrada (um comando) para gerar uma saída (o texto da resposta). Em comparação com o treinamento, a inferência usa muito menos recursos.

O treinamento é um custo fixo, mas o custo da inferência aumenta com o uso, o que torna a escolha do modelo um fator importante que você pode controlar. Você pode fazer escolhas conscientes para seu caso de uso e para o planeta, apoiando o desenvolvimento responsável de IA.

Implementar a IA que prioriza o usuário

Em vez de criar uma IA focada no modelo, crie uma IA focada no usuário. Considere quais tarefas a IA pode realizar para facilitar o uso do app ou reduzir a carga de trabalho dos usuários ou a quantidade de troca de contexto que eles precisam fazer.

Por exemplo, suponha que você tenha uma empresa chamada Rewarding Eats, que dá pontos aos usuários por comer em determinados restaurantes. Você pode usar a IA para analisar uma imagem de recibo e encontrar o nome do restaurante e o valor total gasto, em vez de pedir que os clientes insiram esses dados manualmente. Esse recurso provavelmente melhoraria a experiência do usuário do seu aplicativo.

Ao criar uma IA com foco no usuário:

  1. Defina os requisitos da tarefa. Quais tarefas a IA precisa realizar? Eles são totalmente baseados em texto ou envolvem componentes de áudio ou visuais?
  2. Escolha o modelo adequado. Modelos diferentes são mais eficientes em tarefas diferentes e costumam ter pegadas menores.
  3. Entenda as restrições de implantação. Onde faz sentido que o modelo fique? Onde os dados vão ficar? O usuário terá uma conexão confiável?
  4. Implemente com melhoria progressiva para ter a experiência do usuário mais rápida e segura.

Definir os requisitos da tarefa

Em vez de procurar "lugares para usar IA" ou "recursos de IA para adicionar", pergunte: "Como seria uma experiência sem atrito?" Dependendo do tamanho da sua empresa, essa conversa deve ser com os gerentes de produto.

Confira nosso app de exemplo, o Rewarding Eats. A primeira pergunta a ser feita é: "Precisamos de IA para isso?"

Um modelo de base pode criar um rascunho de uma despesa com base em um recibo, com alguns comandos. Mas uma maneira mais eficiente de lidar com isso não requer um modelo grande. Use o reconhecimento óptico de caracteres (OCR) para analisar o texto da imagem e transmiti-lo a um modelo específico da tarefa, como um modelo de classificação de texto, para identificar os itens e custos do texto analisado. Isso pode ser feito no dispositivo do usuário, sem enviar dados para servidores.

Na maioria dos casos, se você acredita que precisa de um modelo de fundação, provavelmente precisa dividir o problema em tarefas separadas.

Escolher o modelo adequado

Depois de saber quais tarefas você quer concluir, escolha o tipo e o modelo certos para o trabalho. Embora seja mais fácil usar um modelo de fundação, os modelos menores fazem o trabalho mais rápido e barato. Quando você entende sua tarefa, pode escolher o modelo pequeno e específico para a tarefa certa para lidar com o trabalho.

Há muitos tipos e modelos disponíveis. Leia o artigo detalhado sobre como selecionar modelos para determinar a escolha certa para seu projeto.

Escolher o local certo para seu modelo

Embora os modelos de fundação sejam muito grandes para serem executados até mesmo nos desktops mais potentes, LLMs menores, modelos de linguagem pequenos (SLMs) e modelos específicos para tarefas podem ser executados em muitos dispositivos.

Não recomendado Não recomendado Recomendado
Modelo de linguagem pequeno (SLM) Recomendado Recomendado Recomendado
Modelos de fundação Não recomendado Não recomendado Recomendado

Os SLMs são convenientes, mas incomuns. Existem bilhões de smartphones, e apenas os modelos mais recentes e caros conseguem executar SLMs locais. Essa é uma pequena porcentagem do mercado.

Use esta matriz para determinar o melhor local para seu modelo:

Métrica Lado do cliente / local Lado do servidor / remoto
Conectividade Modo off-line necessário, redes instáveis, instalações seguras Ambientes sempre on-line
Local dos dados Processamento de fotos do usuário, entrada de texto e arquivos pessoais Trabalhar com documentos e bancos de dados do lado do servidor
Padrão de uso Chamadas de alta frequência (tradução de chat, análise em tempo real) Tarefas complexas ocasionais
Largura de banda Usuários de dispositivos móveis, áreas rurais, saídas de arquivos grandes Banda larga ilimitada, respostas curtas
Privacidade e segurança Dados regulamentados (saúde, finanças), compliance rigoroso Dados comerciais padrão, infraestrutura de segurança estabelecida
Impacto na bateria Apps para computador, casos de uso tolerantes a energia Apps para dispositivos móveis com bateria limitada

Inferência do lado do cliente, melhoria progressiva e híbrida

Com bibliotecas como TensorFlow.js, Transformers.js e ONNX.js, seus aplicativos podem realizar inferências do lado do cliente com dados do usuário. Você converte o modelo para o formato adequado e o hospeda remotamente ou o incorpora diretamente no app. A melhor experiência do usuário usa uma combinação perfeita de modelos pré-carregados, para download e remotos, para que os usuários possam trabalhar sem problemas.

Mesmo que o uso de um modelo remoto hospedado na nuvem seja preferível por motivos de segurança (ou necessidades de tamanho), disponibilizar modelos locais suficientes quando a conectividade é perdida pode criar uma experiência flexível.

Há três abordagens para a implantação de modelos. Escolha a melhor opção para suas necessidades.

  • Prioridade local:o app tem requisitos off-line, uso de alta frequência e dados sensíveis.
  • Prioridade para o trabalho remoto:raciocínio complexo, modelos grandes, uso pouco frequente.
  • Abordagem híbrida:faça o download de modelos pequenos enquanto usa APIs e mude quando estiver tudo pronto.

Suas próximas etapas

A tecnologia geralmente segue a implementação. A melhor maneira de os desenvolvedores influenciarem a direção do setor, em favor de uma experiência melhor para o usuário e um resultado melhor para o mundo, é:

  • Escolha a ferramenta certa para o trabalho. Modelos menores consomem menos recursos e costumam ter o mesmo desempenho que modelos grandes, com a ajuda da engenharia de comandos. Elas têm latência reduzida.
  • Exigir transparência de custos de inferência e treinamento. Defenda que sua empresa priorize modelos que divulgam esses números.
  • Coloque o modelo perto dos dados para reduzir o custo de viagens de ida e volta para um servidor.
  • Use o que já está disponível. Se já houver modelos no dispositivo, use-os primeiro.

Recursos

Se quiser se aprofundar nesses temas, usei os seguintes recursos para escrever este artigo. São excelentes para leitura.

Desempenho e pesquisa de modelos

Ferramentas de implementação e desenvolvimento