Grazie per aver seguito Google I/O. Guarda i contenuti on demand.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Creare siti web ottimizzati per gli agenti

Kasper Kulikowski

Omkar More

Il tuo sito web ha un nuovo tipo di visitatore. Alcuni utenti umani stanno passando dalla navigazione manuale alla delega di percorsi orientati agli obiettivi agli agenti di AI. Questi sistemi autonomi possono interpretare gli input, pianificare ed eseguire azioni per conto di un utente.

Tuttavia, molti dei nostri siti web sono progettati per essere belli per gli utenti, con stati di passaggio del mouse complessi, layout variabili e movimento fluido. Per gli agenti, questa funzionalità non è disponibile.

Come gli agenti visualizzano il tuo sito

Gli agenti non visualizzano il tuo sito web su un monitor. Operano su una rappresentazione del tuo sito leggibile dalla macchina. La qualità di questa rappresentazione determina il loro rendimento.

Gli agenti possono visualizzare il tuo sito web in tre modi principali: screenshot, HTML non elaborato e l'albero di accessibilità.

Screenshot

L'agente acquisisce uno snapshot della pagina di cui è stato eseguito il rendering e utilizza un modello di visione per identificare gli elementi. In base allo screenshot, l'agente può riconoscere che una barra di ricerca in alto a destra è una ricerca globale, mentre una casella al centro è probabilmente un campo del modulo. Gli indizi visivi possono essere utili, in quanto gli agenti possono utilizzare il colore, le dimensioni e la prossimità per determinare l'importanza. Un pulsante Elimina di grandi dimensioni verrà probabilmente interpretato con maggiore cautela rispetto a un piccolo link "Guida". Tuttavia, l'analisi degli screenshot può essere lenta e costosa (in termini di token utilizzati), il che la rende più adatta come backup quando la struttura è confusa.

HTML

L'agente analizza il DOM e legge l'HTML. Comprende come sono nidificati gli elementi, la gerarchia logica dell'albero DOM, gli attributi come ID e classi che definiscono la struttura e le stringhe di dati non elaborati che formano la spina dorsale informativa del sito. In questo modo l'agente comprende la relazione tra gli elementi. Se un pulsante "Acquista ora" si trova all'interno di un contenitore di prodotti, l'agente presuppone che il pulsante appartenga a quel prodotto specifico.

Albero di accessibilità

L'albero di accessibilità è un'API nativa del browser che distilla il DOM in ciò che è più importante: ruoli, nomi e stati degli elementi interattivi. È il riepilogo semantico della pagina, utilizzato dalle tecnologie per la disabilità. Per un agente AI, funziona come una mappa ad alta fedeltà che ignora il "rumore" visivo del CSS per concentrarsi sulla pura utilità. Interpretando questo albero, un agente può apprendere l'intento funzionale di ogni pulsante di attivazione/disattivazione, cursore e campo di immissione.

Modalità combinate

Affidarsi a un singolo input crea un divario semantico. Ad esempio, nel DOM, un agente potrebbe vedere un <div> senza sapere che in realtà l'hai configurato come un pulsante funzionale con CSS e JavaScript. Con gli screenshot, è possibile che un agente identifichi la posizione del pulsante sullo schermo, ma non è ancora a conoscenza della destinazione prevista o dell'azione che è progettato per attivare.

Gli agenti moderni, pertanto, combinano più modalità. Utilizzano il DOM e l'albero di accessibilità per ottenere un elenco pulito e strutturato di elementi interattivi, quindi eseguono un controllo incrociato con un rendering visivo per comprendere il layout, il raggruppamento e gli indizi visivi.

Il nostro compito è fornire indicatori puliti in tutti questi canali.