Publié le 10 novembre 2025
Après avoir lu l'article sur l'IA adaptée, vous savez que les modèles plus petits sont plus durables que les modèles de fondation. Elles consomment moins d'énergie et peuvent même être exécutées sur l'appareil de l'utilisateur, ce qui réduit la latence et offre une expérience plus performante.
Vous devez être intentionnel et choisir le modèle adapté à votre cas d'utilisation.
Mais comment déterminer le modèle dont vous avez besoin ? Une approche consiste à déterminer les métriques de réussite de votre application, puis à prototyper avec un modèle de fondation. Bien que de nombreux modèles de fondation qui font l'actualité soient des grands modèles de langage (LLM), les modèles de fondation incluent également l'IA prédictive, qui est spécialisée et peut mieux répondre à votre cas d'utilisation.
Une fois que vous avez validé les métriques de réussite, déployez des modèles plus petits et testez-les jusqu'à ce que vous trouviez le plus petit modèle possible qui produit des résultats répondant à vos critères de réussite.
Prototyper à grande échelle, déployer à petite échelle
Pour choisir le modèle adapté à vos besoins, procédez comme suit :

- Prouvez que votre tâche est possible. Testez si ce que vous essayez d'accomplir est possible en utilisant le plus grand modèle possible. Il peut s'agir d'un grand modèle de langage, comme Gemini 2.5 Pro, ou d'un autre modèle de fondation.
- Définissez des critères de réussite. Collectez un ensemble d'entrées et de sorties idéales. Par exemple, une application de traduction peut avoir des entrées de phrases en anglais et des sorties de ces phrases traduites correctement en espagnol.
- Testez de la petite à la grande taille. Comparez les sorties des modèles plus petits à vos critères de test. Commencez par le plus petit modèle. L'ingénierie des requêtes peut vous aider à obtenir de meilleurs résultats. Vous pouvez également recruter un modèle plus grand pour comparer les résultats et vous aider à obtenir un meilleur résultat avec votre modèle plus petit.
- Sélectionnez le plus petit modèle qui fournit des réponses acceptables pour votre cas d'utilisation. Par exemple, le plus petit modèle qui génère des traductions correctes.
Quel que soit l'endroit où le modèle est hébergé (sur l'appareil ou sur un serveur), il est plus efficace d'utiliser un modèle plus petit qu'un modèle plus grand.
Types de modèles
J'ai classé les modèles en fonction des données qu'ils traitent : visuelles, audio et textuelles. Je vais vous présenter des exemples d'utilisation et certains des modèles disponibles.
Traitement visuel
Le traitement visuel peut être une évaluation d'images fixes ou de vidéos.
Classification d'images : utilisez-la pour tout, de la génération de texte alternatif pour la conformité en termes d'accessibilité au filtrage de contenu pour filtrer les images inappropriées avant qu'elles n'atteignent les utilisateurs. Choisissez cette classification d'images lorsque vous avez besoin de comprendre le contenu d'une image, sans examen manuel.
Modèles : MobileNet, ResNeXt et ConvNeXt
Détection d'objets : taguez des objets spécifiques dans des images ou des flux vidéo, créez des expériences de RA interactives qui répondent aux objets du monde réel ou créez des systèmes de gestion des stocks capables d'identifier et de compter des articles. Choisissez la détection d'objets lorsque vous avez une photo ou une vidéo d'un objet inanimé.
Modèles : modèles de détection d'objets, tels que YOLOv8 et DETR
Détection de la pose du corps : à utiliser pour contrôler l'interface avec des gestes ou des mouvements du corps, pour des expériences d'essayage virtuel de vêtements et pour des plates-formes de télésanté qui surveillent les mouvements des patients et leur progression en rééducation. Choisissez la détection de la pose corporelle lorsque vous évaluez des images ou des vidéos du corps d'une personne.
Modèles de pose, tels que MoveNet et BlazePose
Détection des points clés du visage : à utiliser pour les systèmes d'authentification faciale sécurisés, la détection des émotions pour personnaliser les expériences utilisateur, le suivi des mouvements oculaires pour les commandes accessibles, et les filtres photo ou les applications de beauté en temps réel. Choisissez ce modèle lorsque vous évaluez des images ou des vidéos du visage d'une personne.
Modèles MediaPipe FaceMesh et OpenPose
Modèles de détection de pose de la main : utilisez ces modèles pour les commandes d'interface sans contact où les utilisateurs naviguent avec des gestes de la main, les applications de traduction de la langue des signes pour l'accessibilité et les outils créatifs qui répondent aux mouvements de la main pour le dessin ou la conception. Pensez également à les utiliser dans des environnements où il est difficile de toucher les écrans (secteurs médical et de la restauration) ou lorsque les utilisateurs sont loin des commandes, par exemple lors de présentations où les orateurs contrôlent les diapositives avec des gestes.
Modèles : modèles d'estimation de la pose de la main, comme MediaPipe Hands.
Reconnaissance de l'écriture manuscrite : permet de convertir des notes manuscrites en texte numérique consultable, de traiter les saisies au stylet pour les applications de prise de notes et de numériser les formulaires ou documents importés par les utilisateurs.
Modèles de reconnaissance optique des caractères (OCR), tels que MiniCPM-o, H2OVL-Mississippi et Surya.
Modèles de segmentation d'images : à choisir lorsque des arrière-plans d'images cohérents sont importants ou lorsque des retouches d'images sont nécessaires. Par exemple, vous pouvez les utiliser pour supprimer précisément l'arrière-plan, effectuer un filtrage avancé du contenu afin d'identifier des zones spécifiques à problème dans les images, et utiliser des outils de retouche photo sophistiqués pour isoler des éléments particuliers, tels que des photos de profil et de produits.
Modèles : Segment Anything (SAM), Mask R-CNN
Génération d'images : permet de créer des images à la demande, sans licence. Ces modèles peuvent être utilisés pour créer des avatars personnalisés pour les profils utilisateur, des variantes d'images de produits pour les catalogues d'e-commerce et des visuels personnalisés pour les workflows de marketing ou de création de contenu.
Modèles : modèles de diffusion, tels que Nano Banana, Flux et Qwen Image
Traitement audio
Choisissez un modèle de traitement audio pour les fichiers audio.
Classification audio : à utiliser lorsque l'audio doit être identifié et décrit, sans révision humaine. Par exemple, l'identification en temps réel de la musique de fond, des sons ambiants ou du contenu parlé dans les contenus multimédias importés, le taggage automatique du contenu pour les bibliothèques audio et les commandes d'interface utilisateur basées sur le son.
Modèles : Wav2Vec2 et AudioMAE
Génération audio : créez du contenu audio à la demande sans licence. Par exemple, cela peut être utilisé pour créer des effets sonores personnalisés pour des expériences Web interactives, générer de la musique de fond à partir des préférences ou du contenu de l'utilisateur, et produire des éléments de branding audio tels que des sons de notification ou des commentaires d'interface.
Modèles : il existe différents modèles spécialisés de génération audio. Ces modèles sont généralement très spécifiques. Je ne vais donc pas les lister.
Text-to-Speech (TTS) : convertissez du contenu écrit en discours cohérent et naturel pour respecter les exigences d'accessibilité, créez des voix off pour des contenus éducatifs ou des tutoriels, et développez des interfaces multilingues qui parlent le texte dans la langue préférée des utilisateurs.
Modèles Orpheus et Sesame CSM
Reconnaissance vocale : transcrivez un enregistrement de la voix humaine, par exemple pour la transcription en temps réel d'événements ou de réunions en direct, la navigation et la recherche vocales, et le sous-titrage automatique pour l'accessibilité du contenu vidéo.
Modèles : Whisper Web Turbo, NVIDIA Canary et Kyutai
Traitement de texte
Classification du langage naturel (NLP) : utilisez-la pour trier et acheminer automatiquement de grandes quantités de texte, de systèmes de taggage et de systèmes de modération. Le texte peut être constitué de messages utilisateur ou de tickets d'assistance. Il peut s'agir de détecter le sentiment dans les commentaires des clients ou les mentions sur les réseaux sociaux, et de filtrer le spam ou le contenu inapproprié avant qu'il n'atteigne d'autres utilisateurs.
Modèles BERT, DistilBERT et RoBERTa
IA conversationnelle : créez des interfaces de chat et des systèmes conversationnels. Les chatbots d'assistance client, les assistants IA personnels et les interactions conversationnelles similaires sont quelques-uns des meilleurs cas d'utilisation pour les LLM. Heureusement, il existe des modèles de langage suffisamment petits pour tenir sur votre appareil, qui nécessitent beaucoup moins d'énergie pour l'entraînement et l'invite.
Modèles : Gemma 2 27B, Llama 3.1 et Qwen2.5
Modèles de traduction : à utiliser pour prendre en charge plusieurs langues dans votre application. Les modèles de langue locaux peuvent traduire des langues en temps réel, convertir du contenu généré par les utilisateurs dans plusieurs langues pour les plates-formes mondiales et permettre la traduction privée de documents qui conserve le contenu sensible sur l'appareil de l'utilisateur.
Modèles : SLM tels que Gemma Nano, Granite 1.5B, GSmolLM3 et Qwen 3.4B
Lire l'étiquette nutritionnelle

Différents modèles consomment des quantités variables de ces ressources lorsqu'ils sont exécutés sur différents matériels dans différents lieux. Il n'existe pas encore de norme de mesure à laquelle se comparer, mais une initiative vise à inclure ces informations dans les "étiquettes nutritionnelles" de l'IA.
Les fiches de modèle, introduites par Margaret Mitchell et ses collègues chez Google en 2018, constituent une approche standardisée pour rendre compte de l'utilisation prévue, des limites, des considérations éthiques et des performances des modèles. Aujourd'hui, de nombreuses entreprises utilisent une forme de fiches de modèle, y compris Hugging Face, Meta et Microsoft.
Les fiches d'informations sur l'IA d'IBM, qui couvrent le cycle de vie, la responsabilité, la gouvernance et la conformité, sont plus populaires dans les environnements d'entreprise. Les cadres réglementaires, tels que la loi européenne sur l'IA, le framework de gestion des risques liés à l'IA du NIST et la norme ISO 42001, exigent cette documentation.
Google a appelé à la transparence des coûts d'inférence dans l'ensemble du secteur. Ces chiffres pourraient être ajoutés aux fiches et aux factsheets des modèles. Hugging Face a ajouté les coûts carbone à ses fiches de modèle et s'est efforcé de standardiser la mesure de l'efficacité énergétique avec l'initiative AI Energy Score.
Promouvoir une IA adaptée
L'IA adaptée est un choix durable, performant et pragmatique pour vos clients et votre entreprise.
Vous pouvez faire progresser le secteur en exigeant que les modèles hébergés adoptés par votre entreprise divulguent leurs exigences de ressources de base pour l'entraînement et l'inférence. Si un nombre suffisant de clients demandent de la transparence, les fournisseurs sont plus susceptibles de publier ces informations.