Publié le 10 novembre 2025
Lorsque vous créez des sites Web et des applications Web avec l'IA, vous avez peut-être prototypé avec un grand modèle de langage (LLM), tel que ChatGPT, Gemini ou Claude, puis déployé cette implémentation en production. Un LLM est un type de modèle de fondation, un modèle pré-entraîné très volumineux, qui nécessite beaucoup de ressources, est coûteux et n'est souvent pas l'outil le plus adapté à la tâche. Les modèles plus petits, locaux et spécifiques à une tâche consomment moins de ressources et fournissent souvent des réponses plus rapides et de meilleure qualité à moindre coût que les modèles de fondation "universels".
Lorsque vous choisissez un modèle plus performant, vous optez pour une approche plus durable, que nous appelons IA adaptée. Une IA bien dimensionnée permet :

- Latence réduite pour les utilisateurs lorsque les modèles s'exécutent localement, au lieu d'effectuer des allers-retours vers des serveurs distants.
- Réduction des coûts d'API lorsque vous ne payez pas pour les fonctionnalités inutilisées.
- Accès hors connexion aux applications pour les modèles côté client et sur l'appareil, ce qui permet de créer des expériences plus fiables.
Bien que les modèles de fondation excellent dans le raisonnement général et la conversation, les utiliser pour des tâches spécifiques (comme la classification de texte ou l'extraction de données) revient à utiliser une voiture de Formule 1 pour aller au McDonald's. C'est techniquement possible, mais très inefficace (et inconfortable pour vos passagers). Au lieu de cela, adaptez votre implémentation à vos besoins réels.
Les pratiques d'IA durables et les expériences utilisateur optimales ne sont pas des priorités concurrentes. Il s'agit de la même priorité exprimée différemment.
Voici une façon d'évaluer l'impact environnemental de l'IA :
- Entraînement : l'entraînement initial du modèle nécessite des ressources importantes. Cette optimisation et cet "apprentissage" sont gérés par le fournisseur du modèle.
- Inférence : vous effectuez une inférence lorsque vous fournissez à un modèle entraîné une nouvelle entrée (un prompt) pour générer une sortie (le texte de réponse). Par rapport à l'entraînement, l'inférence utilise beaucoup moins de ressources.
L'entraînement représente un coût fixe, mais le coût de l'inférence évolue en fonction de l'utilisation. Le choix du modèle est donc un facteur clé que vous pouvez contrôler. Vous pouvez faire des choix éclairés pour votre cas d'utilisation et pour la planète, en soutenant le développement responsable de l'IA.
Implémenter une IA axée sur l'utilisateur
Au lieu de créer une IA axée sur les modèles, créez une IA axée sur les utilisateurs. Réfléchissez aux tâches que l'IA pourrait effectuer pour rendre votre application plus facile à utiliser ou réduire la charge de travail de vos utilisateurs, ou la quantité de changements de contexte qu'ils doivent effectuer.
Par exemple, imaginons que vous dirigiez une entreprise appelée Rewarding Eats, qui attribue des points aux utilisateurs qui dînent dans certains restaurants. Vous pouvez utiliser l'IA pour analyser une image de reçu afin d'identifier le nom du restaurant et le montant total dépensé, au lieu de demander à vos clients de les saisir manuellement. Cette fonctionnalité améliorerait probablement l'expérience utilisateur de votre application.
Lorsque vous créez une IA centrée sur l'utilisateur :
- Définissez les exigences de votre tâche. Quelles tâches l'IA doit-elle effectuer ? Sont-elles entièrement textuelles ou comportent-elles des éléments audio ou visuels ?
- Choisissez le modèle approprié. Différents modèles sont plus efficaces pour différentes tâches et ont souvent une empreinte plus petite.
- Comprenez vos contraintes de déploiement. Où le modèle doit-il résider ? Où les données seront-elles stockées ? L'utilisateur disposera-t-il d'une connexion fiable ?
- Implémentez l'amélioration progressive pour une expérience utilisateur plus rapide et plus sécurisée.
Définir les exigences de votre tâche
Au lieu de chercher "où utiliser l'IA" ou "quelles fonctionnalités d'IA ajouter", vous devriez vous demander "à quoi ressemblerait une expérience fluide ?" Selon la taille de votre entreprise, vous devriez en discuter avec les responsables produit.
Prenons l'exemple de notre application Rewarding Eats. La première question à se poser est la suivante : "Avons-nous besoin de l'IA pour cela ?"

Un modèle de fondation pourrait rédiger une note de frais à partir d'un reçu, avec quelques requêtes. Mais une façon plus efficace de gérer cela ne nécessite pas du tout un grand modèle. Utilisez la reconnaissance optique des caractères (OCR) pour analyser le texte de l'image et le transmettre à un modèle spécifique à une tâche, comme un modèle de classification de texte, afin d'identifier les éléments et les coûts à partir du texte analysé. Cela peut être fait sur l'appareil de l'utilisateur, sans envoyer de données aux serveurs.
Dans la plupart des cas, si vous pensez avoir besoin d'un modèle de base, vous devez probablement décomposer le problème en tâches distinctes.
Choisir le bon modèle
Une fois que vous savez quelles tâches vous essayez d'accomplir, vous pouvez choisir le type de modèle et le modèle adaptés. Bien qu'il soit plus facile d'utiliser un modèle de base, les modèles plus petits font le travail plus rapidement et à moindre coût. Une fois que vous avez compris votre tâche, vous pouvez choisir le petit modèle spécifique qui convient pour l'effectuer.
De nombreux types et modèles sont disponibles. Lisez l'article détaillé sur la sélection des modèles pour déterminer le bon choix pour votre projet.
Choisir le bon emplacement pour votre modèle
Alors que les modèles de fondation sont trop volumineux pour fonctionner même sur les ordinateurs de bureau les plus puissants, les LLM plus petits, les petits modèles de langage (SLM) et les modèles spécifiques à une tâche peuvent être exécutés sur de nombreux appareils.
| Approche déconseillée | Approche déconseillée | Recommandé | |
| Petit modèle de langage (SLM) | Recommandé | Recommandé | Recommandé |
| Modèles de fondation | Approche déconseillée | Approche déconseillée | Recommandé |
Les SLM sont pratiques, mais peu courants. Il existe des milliards de téléphones mobiles, mais seuls les modèles les plus récents et les plus chers sont capables d'exécuter des SLM locaux. Cela représente un petit pourcentage du marché.
Utilisez cette matrice pour déterminer le meilleur emplacement pour votre modèle :
| Métrique | Côté client / Local | Côté serveur / à distance |
|---|---|---|
| Connectivité | Mode hors connexion requis, réseaux instables, établissements sécurisés | Environnements toujours en ligne |
| Emplacement des données | Traitement des photos d'utilisateurs, des saisies de texte et des fichiers personnels | Utiliser des documents et des bases de données côté serveur |
| Schéma d'utilisation | Appels haute fréquence (traduction de chat, analyse en temps réel) | Tâches complexes occasionnelles |
| Bande passante | Mobiles, zones rurales, fichiers volumineux | Haut débit illimité, petites réponses |
| Confidentialité et sécurité | Données réglementées (santé, finance), conformité stricte | Données commerciales standards, infrastructure de sécurité établie |
| Impact sur la batterie | Applications de bureau, cas d'utilisation tolérant l'alimentation | Applications mobiles avec batterie limitée |
Inférence côté client, amélioration progressive et hybride
Grâce à des bibliothèques telles que TensorFlow.js, Transformers.js et ONNX.js, vos applications peuvent effectuer une inférence côté client avec les données utilisateur. Vous convertissez votre modèle au format approprié, puis vous l'hébergez à distance ou l'intégrez directement dans votre application. Pour une expérience utilisateur optimale, utilisez un mélange fluide de modèles préchargés, téléchargeables et distants, afin que les utilisateurs puissent travailler sans compromis.
Même si l'utilisation d'un modèle distant hébergé dans le cloud est préférable pour la sécurité (ou pour répondre aux besoins de taille), le fait de rendre suffisamment de modèles locaux disponibles en cas de perte de connectivité peut créer une expérience flexible.
Il existe trois approches pour déployer un modèle. Choisissez celui qui correspond le mieux à vos besoins.
- Local-first : l'application a des exigences hors connexion, une utilisation à haute fréquence et des données sensibles.
- Priorité au travail à distance : raisonnement complexe, grands modèles, utilisation peu fréquente.
- Approche hybride : téléchargez de petits modèles tout en utilisant des API, puis passez à des modèles plus grands lorsque vous êtes prêt.
Étapes suivantes
La technologie suit souvent l'implémentation. Pour influencer l'orientation du secteur, afin d'améliorer l'expérience utilisateur et d'obtenir de meilleurs résultats pour notre monde, les développeurs doivent :
- Choisissez l'outil adapté à chaque tâche. Les modèles plus petits consomment moins de ressources et sont souvent aussi performants que les grands modèles, grâce au prompt engineering. La latence est réduite.
- Exigez la transparence des coûts d'inférence et d'entraînement. Demandez à votre entreprise de privilégier les modèles qui divulguent ces chiffres.
- Placez le modèle à proximité des données pour réduire le coût des allers-retours vers un serveur.
- Utilisez ce qui est déjà disponible. S'il existe déjà des modèles sur l'appareil, privilégiez-les.
Ressources
Si vous souhaitez approfondir ces sujets, j'ai utilisé les ressources suivantes pour rédiger cet article. Ils sont excellents à lire.
Performances et recherche sur les modèles
- Les petits modèles de langage sont l'avenir de l'IA agentique (article de recherche NVIDIA) : Recherche à l'appui des capacités des SLM
- Audit de l'impact environnemental de Mistral : transparence des coûts d'entraînement et d'inférence
- Étude de Google sur les coûts d'inférence : mesure de l'impact environnemental
- Étude Nature : impact environnemental de l'IA par rapport à celui de l'humain : Analyse comparative de l'accomplissement des tâches par l'IA et par l'humain
- Discussion sur l'impact environnemental de l'IA : Contexte sur le discours environnemental
Outils d'implémentation et de développement
- Chargement de modèles TensorFlow.js : déploiement de modèles côté client
- Exemples Transformers.js : inférence de modèle basée sur le navigateur
- Environnement d'exécution ONNX.js : déploiement de modèles multiplate-forme
- Guide Firebase Hybrid AI : Intégration de modèles locaux et à distance