Présentation des agents

Publié le 25 février 2025

Les développeurs Web créent et optimisent des sites Web pour les audiences humaines et non humaines, y compris les robots d'exploration et autres robots. Les agents d'IA sont les derniers utilisateurs Web à bénéficier de votre optimisation.

Un agent est un système qui reçoit des entrées, les interprète, puis planifie et exécute des actions au nom de l'utilisateur (qu'il s'agisse d'un humain ou d'un autre agent). Un agent comporte plusieurs composants, qui peuvent inclure des modèles, des API ou d'autres outils.

Plusieurs caractéristiques définissent les agents. Dans un contexte de développement Web, vous devez tenir compte des points suivants :

  • Autonomie : les agents peuvent fonctionner sans intervention humaine directe.
  • Interactif : les agents peuvent converser avec d'autres agents et des humains.
  • Réactif : un agent perçoit son environnement et réagit aux changements.
  • Proactif : les agents peuvent prendre l'initiative pour atteindre des objectifs spécifiques.

Par exemple, la librairie Exemple est une librairie en ligne. Un utilisateur peut recueillir des recommandations pour un nouveau livre, en fonction des livres qu'il aime et d'autres centres d'intérêt, en interagissant avec un grand modèle de langage (LLM). Un agent peut rediriger l'utilisateur vers la page du livre recommandé et lancer le processus de paiement. Si le livre était en rupture de stock, l'agent pourrait rediriger l'utilisateur vers une autre librairie en ligne pour qu'il puisse l'acheter.

Les agents étant des utilisateurs relativement nouveaux sur le Web, vous avez le temps d'adopter les bonnes pratiques. Toutefois, de nombreuses bonnes pratiques destinées à aider les agents aident en réalité tous les utilisateurs, en particulier pour créer un site Web accessible.

Dans ce document, nous examinons le fonctionnement des agents en tant qu'utilisateurs Web et pourquoi vous devriez envisager de concevoir votre site Web en tenant compte des agents.

Comment les agents fonctionnent-ils en tant qu'utilisateurs ?

La plupart des discussions sur l'IA et les sites Web ont porté sur les robots d'exploration utilisés pour extraire des données d'entraînement pour les LLM. Les données extraites pour l'entraînement sont souvent conservées dans des ensembles de données ouverts tels que Common Crawl, ce qui permet d'éviter que les sites ne soient submergés par les robots d'exploration. Toutefois, l'entraînement n'est qu'une des raisons pour lesquelles vous rencontrerez des systèmes d'IA.

Les systèmes d'IA peuvent cibler des pages spécifiques à extraire, en fonction de la demande d'un utilisateur spécifique (qu'il s'agisse d'un humain ou d'un agent). Par exemple, un utilisateur peut fournir des sources à NotebookLM. Le système extrait alors le contenu pour mieux l'aider dans les tâches associées, comme la synthèse ou l'agrégation de données.

Les agents suivent des schémas similaires et explorent les pages au nom de l'utilisateur pour répondre à sa demande, mais le flux peut être moins linéaire.

Alors que les agents sont utilisés depuis longtemps pour les tâches d'automatisation et la collecte d'informations, ils peuvent désormais cliquer sur des liens et des boutons, remplir des champs et faire défiler des pages, en effectuant des workflows au nom des utilisateurs. Il peut s'agir de tâches simples, comme remplir des formulaires de contact, ou de tâches plus complexes, comme réserver des vols pour votre famille.

Comprendre le consentement est la compétence la plus importante pour ces nouveaux types d'agents, car ils agissent comme des compagnons pour les humains. Les agents doivent demander une confirmation à des moments critiques, comme lors d'une étape d'achat ou de l'envoi d'un formulaire contenant des informations sensibles.

Agents en tant que compagnons

Les agents peuvent être des compagnons ou même des substituts pour les utilisateurs humains, en les aidant à accomplir des tâches complexes sur votre site Web ou votre application Web. De manière générale, le processus d'un agent est toujours le même :

  1. Recevez la requête.
  2. Traite la requête et planifie la façon d'y répondre.
  3. Exécutez le plan.
  4. Mémorisez les leçons apprises.

Les agents sont les plus adaptés pour prendre en charge les tâches sur plusieurs origines. Dans le cas d'un achat de livres, l'agent peut effectuer une tâche sur votre origine tout en naviguant sur d'autres origines similaires. Plus votre site aide un agent à accomplir la tâche, plus il est probable que l'agent l'accomplisse avec votre origine.

En tant que développeur Web, votre rôle consiste à prendre en charge et à créer des outils pour aider les humains et les agents à accomplir efficacement des tâches essentielles. Mais les outils ne sont qu'un élément de l'infrastructure de l'agent.

Infrastructure de l'agent

Les humains coopèrent avec les agents. Chaque élément envoie et renvoie des informations au modèle.
Un humain travaille avec un agent, qui contient un modèle, des règles, de la mémoire et des outils.

Un agent est une unité autonome comportant plusieurs éléments connectés :

  • Modèle : les grands modèles de langage (LLM) constituent la base d'un agent d'IA. Ils fournissent un raisonnement, une base de connaissances et la capacité de traiter et de générer du langage.
  • Règles : diverses contraintes, y compris un persona, des instructions et des objectifs, aident l'agent à effectuer des tâches de manière cohérente.
  • Mémoire : la mémoire à court terme et la mémoire à long terme aident un agent à gérer le contexte, à gagner en efficacité et, de manière générale, à mieux répondre aux besoins de l'utilisateur.
  • Outils : un agent peut utiliser de nombreux outils différents, y compris des API, des fonctions, des bases de données et même d'autres agents. Par exemple, WebMCP est une proposition du programme de preview anticipée de Chrome visant à prendre en charge les interactions structurées sur votre site Web.

Lorsque les agents traitent des sites Web comme des sources de données ou interagissent directement avec des pages, ils peuvent le faire visuellement ou sémantiquement :

  • Interaction visuelle : l'agent prend un instantané de la page Web affichée. Il utilise un modèle de vision pour lire le contenu et identifier les éléments interactifs.
  • Interaction sémantique : l'agent analyse le DOM et lit le texte directement. Cela est particulièrement courant pour les agents effectuant des tâches automatisées.

Pour les interactions visuelles et sémantiques, les agents bénéficient de sites bien conçus, intuitifs et dont la hiérarchie du contenu est claire.

Les agents ont besoin d'accéder aux données

Une façon de définir les agents consiste à déterminer leur relation avec les données. Le propriétaire de l'agent et des données est-il le même ou différent ? Ce choix détermine les niveaux d'authentification nécessaires et la difficulté de la tâche.

Agent first party

Un agent zero-party est un agent basé sur un navigateur ou un système d'exploitation qui agit dans un contexte local à l'aide de données locales. Étant donné que les navigateurs et les systèmes d'exploitation stockent les préférences utilisateur personnalisées, qui peuvent être considérées comme des informations permettant d'identifier personnellement les utilisateurs, un agent first party peut empêcher les opérations qui partagent ces données avec d'autres parties.

Agent propriétaire

Un agent first party est un outil et des informations appartenant à la même partie. Les développeurs peuvent donc posséder et prendre en charge des outils, et gérer l'accès aux informations et à la configuration.

Par exemple, supposons que vous prévoyez des vacances à Toronto et que vous souhaitez créer une liste de lieux à visiter. Un agent fourni par Google Maps peut prendre un ensemble de critères et de données pour générer une liste de points d'intérêt en votre nom, en marquant chaque élément sur la carte. Il peut être considéré comme un agent first party, car il est fourni par Google, qui possède également les données cartographiques et toutes les autres préférences personnelles stockées par un utilisateur connecté.

Agent tiers

Un agent tiers est créé par un développeur ou une organisation externes. Il propose des fonctions et des données provenant de services externes. Par exemple, vous pouvez souhaiter qu'un fournisseur d'agenda tiers prenne en charge une fonctionnalité basée sur des événements sur votre site Web. Vous pouvez proposer des outils à ces agents, tels que WebMCP, ou les intégrer à vos workflows (à condition qu'ils passent votre examen de confidentialité).

Un agent tiers pourrait théoriquement effectuer la même tâche de cartographie, lorsqu'il est conçu comme une extension.

Les développeurs peuvent créer un agent qui s'appuie sur des sources spécifiques pour créer des listes, par exemple en recensant les meilleurs restaurants à partir de journaux locaux. Cet agent aurait besoin d'un accès en lecture aux sites de journaux locaux, ainsi qu'un accès en lecture et en écriture à un outil de création de listes, qu'il s'agisse de Google Maps ou d'un autre service. Cela nécessite plusieurs niveaux de consentement et d'autorisations, ainsi que des outils spécifiques pour interagir avec les sites (comme un outil Playwright).

Il est probable que votre site Web ou votre application Web soient des fournisseurs d'informations tiers pour un agent. Dans ce cas, vous pouvez proposer une structure d'autorisations qui permet aux agents et aux humains d'effectuer des tâches avec vous.

Points à retenir

Maintenant que vous comprenez le fonctionnement des agents, vous pouvez décider de la meilleure façon dont votre site Web peut les prendre en charge.

Nous continuerons à mettre à jour cette série en vous proposant des bonnes pratiques concrètes pour vous aider à gérer les interactions entre votre site Web et vos applications Web avec les agents.