Publicado em: 10 de novembro de 2025
Depois de ler sobre a IA dimensionada corretamente, você sabe que modelos menores são mais sustentáveis do que modelos de fundação. Eles consomem menos energia e podem ser executados no dispositivo do usuário, reduzindo a latência e proporcionando uma experiência mais eficiente.
Você precisa ser intencional e escolher o modelo certo para seu caso de uso.
Mas como determinar qual modelo você precisa? Uma abordagem é determinar as métricas de sucesso do seu aplicativo e criar um protótipo com um modelo de fundação. Embora recentemente muitos dos modelos de fundação nas notícias sejam modelos de linguagem grandes (LLMs), eles também incluem IA preditiva, que é especializada e pode ser mais adequada ao seu caso de uso.
Depois de validar as métricas de sucesso, faça a implantação com modelos menores e teste até encontrar o menor modelo possível que produza resultados que atendam aos seus critérios de sucesso.
Crie protótipos grandes e implante pequenos
Para escolher o modelo certo, siga estas etapas:

- Prove que sua tarefa é possível. Teste se o que você está tentando fazer é possível usando o maior modelo possível. Ele pode ser um modelo de linguagem grande, como o Gemini 2.5 Pro, ou outro modelo de fundação.
- Definir critérios de sucesso. Colete um conjunto de entradas e saídas ideais. Por exemplo, um aplicativo de tradução pode ter entradas de frases em inglês e saídas dessas frases traduzidas corretamente para o espanhol.
- Teste do menor para o maior. Compare as saídas de modelos menores com seus critérios de teste. Comece com o menor modelo. A engenharia de comando pode ajudar você a ter resultados melhores. Você também pode recrutar um modelo maior para comparar as saídas e ajudar a produzir um resultado melhor com o modelo menor.
- Selecione o menor modelo que forneça respostas aceitáveis para seu caso de uso. Por exemplo, o menor modelo que gera traduções corretamente.
Independente de onde o modelo está hospedado, se ele for pequeno o suficiente para ficar no dispositivo ou ainda precisar ser hospedado em um servidor, é mais eficiente usar um modelo menor do que um maior.
Tipos de modelos
Categorizei os modelos pelos dados que eles processam: visuais, áudio e texto. Vou mostrar exemplos de casos de uso e alguns dos modelos disponíveis.
Processamento visual
O processamento visual pode ser a avaliação de imagens estáticas ou vídeos.
Classificação de imagens: use para tudo, desde a geração de texto alternativo para conformidade de acessibilidade até a triagem de conteúdo para filtrar imagens inadequadas antes que elas cheguem aos usuários. Escolha essa classificação de imagem quando precisar entender o que há em uma imagem sem uma revisão humana.
Modelos: MobileNet, ResNeXt e ConvNeXt
Detecção de objetos: marque objetos específicos em imagens ou streams de vídeo, crie experiências interativas de RA que respondem a objetos do mundo real ou crie sistemas de gerenciamento de inventário que podem identificar e contar itens. Escolha a detecção de objetos quando tiver uma foto ou um vídeo de um objeto inanimado.
Modelos: modelos de detecção de objetos, como YOLOv8 e DETR
Detecção de postura corporal: use para controle de interface com gestos ou movimentos do corpo, experiências de provar roupas virtualmente e plataformas de telessaúde que monitoram o movimento do paciente e o progresso da reabilitação. Escolha a detecção de postura corporal ao avaliar imagens ou vídeos do corpo de uma pessoa.
Modelos de estimativa de pose, como MoveNet e BlazePose
Detecção de pontos de referência faciais: use para sistemas de autenticação facial seguros, detecção de emoções para personalizar experiências do usuário, rastreamento de movimentos oculares para controles acessíveis e filtros de fotos ou aplicativos de beleza em tempo real. Escolha esse modelo ao avaliar imagens ou vídeos do rosto de uma pessoa.
Modelos MediaPipe FaceMesh e OpenPose
Modelos de detecção de postura das mãos: use esses modelos para controles de interface sem toque em que os usuários navegam com gestos das mãos, aplicativos de tradução de linguagem de sinais para acessibilidade e ferramentas criativas que respondem a movimentos das mãos para desenho ou design. Além disso, considere usar esses recursos em ambientes em que tocar nas telas não é prático (serviços médicos e de alimentação) ou quando os usuários estão longe dos controles, como em apresentações em que os palestrantes controlam os slides com gestos.
Modelos: modelos de estimativa de pose das mãos, como o MediaPipe Hands.
Reconhecimento de escrita à mão: usado para converter anotações manuscritas em texto digital pesquisável, processar entradas de stylus para aplicativos de anotações e digitalizar formulários ou documentos enviados pelos usuários.
Modelos de reconhecimento óptico de caracteres (OCR), como MiniCPM-o, H2OVL-Mississippi e Surya.
Modelos de segmentação de imagem: escolha quando fundos de imagem consistentes são importantes ou quando é necessário editar imagens. Por exemplo, é possível usar esses recursos para remoção precisa de plano de fundo, triagem avançada de conteúdo para identificar áreas específicas de interesse nas imagens e ferramentas sofisticadas de edição de fotos para isolar elementos específicos, como fotos de perfil e de produtos.
Modelos Segment Anything (SAM), Mask R-CNN
Geração de imagens: use para criar novas imagens sob demanda, sem licenciamento. Esses modelos podem ser usados para criar avatares personalizados para perfis de usuários, variações de imagens de produtos para catálogos de e-commerce e recursos visuais personalizados para fluxos de trabalho de marketing ou criação de conteúdo.
Modelos: modelos de difusão, como Nano Banana, Flux e Qwen Image
Processamento de áudio
Escolha um modelo de processamento de áudio para arquivos de áudio.
Classificação de áudio: use quando o áudio precisar ser identificado e descrito, sem revisão humana. Por exemplo, identificação em tempo real de música de fundo, sons ambientais ou conteúdo falado em uploads de mídia, inclusão automática de tags de conteúdo para bibliotecas de áudio e controles de interface do usuário baseados em som.
Modelos Wav2Vec2 e AudioMAE
Geração de áudio: crie conteúdo de áudio on demand sem licenciamento. Por exemplo, isso pode ser usado para criar efeitos sonoros personalizados para experiências interativas na Web, gerar música de fundo com base nas preferências ou no conteúdo do usuário e produzir elementos de branding de áudio, como sons de notificação ou feedback da interface.
Modelos: há vários modelos especializados de geração de áudio. Esses modelos costumam ser muito específicos, então não vou listá-los.
Conversão de texto em voz (TTS): converta conteúdo escrito em fala consistente e com som natural para compliance de acessibilidade, criando narração em off para conteúdo educacional ou tutoriais e criando interfaces multilíngues que falam texto nos idiomas preferidos dos usuários.
Modelos Orpheus e Sesame CSM
Conversão de voz em texto (STT): transcreva uma gravação de fala humana, como para transcrição em tempo real de eventos ou reuniões ao vivo, navegação e funcionalidade de pesquisa controladas por voz e legendas automáticas para acessibilidade de conteúdo de vídeo.
Modelos Whisper Web Turbo, NVIDIA Canary e Kyutai
Processamento de texto
Classificação de linguagem natural (PLN): use para classificar e encaminhar automaticamente grandes quantidades de texto, sistemas de rotulagem e sistemas de moderação. O texto pode ser mensagens de usuários ou tíquetes de suporte, detectando sentimentos em feedback de clientes ou menções em redes sociais e filtrando spam ou conteúdo inadequado antes que ele chegue a outros usuários.
Modelos BERT, DistilBERT e RoBERTa
IA de conversação: crie interfaces de chat e sistemas de conversação. Chatbots de suporte ao cliente, assistentes pessoais de IA e interações de conversação semelhantes são alguns dos melhores casos de uso para LLMs. Felizmente, existem modelos de linguagem pequenos o suficiente para caber no seu dispositivo, que exigem muito menos energia para treinamento e solicitação.
Modelos: Gemma 2 27B, Llama 3.1 e Qwen2.5
Modelos de tradução: usados para oferecer suporte a vários idiomas no aplicativo. Os modelos de linguagem locais podem lidar com a tradução de idiomas em tempo real, convertendo conteúdo gerado pelo usuário em vários idiomas para plataformas globais e permitindo a tradução privada de documentos que mantém o conteúdo sensível no dispositivo do usuário.
Modelos SLMs como Gemma Nano, Granite 1.5B, GSmolLM3 e Qwen 3.4B
Leia o rótulo de informação nutricional

Modelos diferentes consomem quantidades variadas desses recursos ao serem executados em hardwares diferentes em locais diferentes. Ainda não há um padrão de medição para usar como comparativo, mas existe um movimento para incluir essas informações em "rótulos nutricionais" de IA.
Os cartões de modelo, apresentados por Margaret Mitchell e colegas do Google em 2018, são uma abordagem padronizada para informar o uso pretendido, as limitações, as considerações éticas e a performance dos modelos. Hoje, muitas empresas usam um tipo de fichas de modelo, incluindo Hugging Face, Meta e Microsoft.
As Fichas de dados de IA da IBM, que abrangem ciclo de vida, responsabilidade, governança e compliance, são mais usadas em ambientes empresariais. Estruturas regulatórias, como a Lei de IA da UE, o AI Risk Management Framework do NIST e a ISO 42001, exigem essa documentação.
O Google pediu transparência nos custos de inferência em todo o setor. Esses números podem ser adicionados a cards de modelo e fichas técnicas. A Hugging Face adicionou custos de carbono aos cards de modelos e fez esforços para padronizar a medição da eficiência energética com a iniciativa AI Energy Score.
Defenda a IA adequada
A IA dimensionada corretamente é a opção sustentável, eficiente e pragmática para seus clientes e sua empresa.
Você pode impulsionar o setor exigindo que os modelos hospedados adotados pela sua empresa divulguem os requisitos básicos de treinamento e recursos de inferência. Se um número suficiente de clientes exigir transparência, é mais provável que os provedores divulguem esses detalhes.