Merci d'avoir participé à Google I/O ! Regarder des contenus à la demande

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Créer des sites Web adaptés aux agents

Kasper Kulikowski

Omkar More

Votre site Web a un nouveau type de visiteur. Certains utilisateurs humains passent de la navigation manuelle à la délégation de parcours axés sur des objectifs à des agents d'IA. Ces systèmes autonomes peuvent interpréter des entrées, planifier et exécuter des actions au nom d'un utilisateur.

Toutefois, de nombreux sites Web sont conçus pour être esthétiques pour les humains, avec des états de survol complexes, des mises en page changeantes et des mouvements fluides. Cela ne fonctionne pas pour les agents.

Comment les agents voient votre site

Les agents ne consultent pas votre site Web sur un moniteur. Ils fonctionnent sur une représentation de votre site lisible par machine. La qualité de cette représentation détermine leurs performances.

Les agents peuvent consulter votre site Web de trois manières principales : captures d'écran, code HTML brut et l'arborescence d'accessibilité.

Captures d'écran

L'agent prend un instantané de la page affichée et utilise un modèle de vision pour identifier les éléments. En fonction de la capture d'écran, l'agent peut reconnaître qu'une barre de recherche en haut à droite est une recherche globale, tandis qu'une zone au milieu est probablement un champ de formulaire. Les repères visuels peuvent être utiles, car les agents peuvent utiliser la couleur, la taille et la proximité pour déterminer l'importance. Un grand bouton Supprimer sera probablement interprété avec plus de prudence qu'un petit lien "Aide". Toutefois, l'analyse des captures d'écran peut être lente et coûteuse (en termes de jetons utilisés), ce qui en fait une meilleure solution de secours lorsque la structure est confuse.

HTML

L'agent analyse le DOM et lit le code HTML. Il comprend comment les éléments sont imbriqués, la hiérarchie logique de l'arborescence DOM, les attributs tels que les ID et les classes qui définissent la structure, ainsi que les chaînes de données brutes qui forment la structure informationnelle du site. Cela aide l'agent à comprendre la relation entre les éléments. Si un bouton "Acheter maintenant" se trouve dans un conteneur de produit, l'agent suppose que ce bouton appartient à ce produit spécifique.

Arborescence d'accessibilité

L'arborescence d'accessibilité est une API native du navigateur qui extrait du DOM ce qui est le plus important : les rôles, les noms et les états des éléments interactifs. Il s'agit du résumé sémantique de la page, utilisé par les technologies d'assistance. Pour un agent d'IA, il fonctionne comme une carte haute fidélité qui ignore le "bruit" visuel du CSS pour se concentrer sur l'utilité pure. En interprétant cette arborescence, un agent peut apprendre l'intention fonctionnelle de chaque bouton, curseur et champ de saisie.

Modalités combinées

S'appuyer sur une seule entrée crée un écart sémantique. Par exemple, dans le DOM, un agent peut voir un <div> sans savoir que vous l'avez configuré comme un bouton fonctionnel avec CSS et JavaScript. Avec les captures d'écran, il est possible qu'un agent identifie l'emplacement de ce bouton à l'écran, mais il ne connaît toujours pas la destination prévue du bouton ni l'action qu'il est conçu pour déclencher.

Les agents modernes combinent donc plusieurs modalités. Ils utilisent le DOM et l'arborescence d'accessibilité pour obtenir une liste propre et structurée d'éléments interactifs, puis la croisent avec un rendu visuel pour comprendre la mise en page, le regroupement et les repères visuels.

Notre travail consiste à fournir des signaux clairs sur tous ces canaux.