Pubblicato il 25 febbraio 2025
Gli sviluppatori web creano e ottimizzano siti web per segmenti di pubblico umani e non umani, inclusi crawler e altri bot. Gli agenti AI sono gli ultimi utenti web che traggono vantaggio dalla tua ottimizzazione.
Nella sua essenza, un agente è un sistema che riceve input, li interpreta, quindi pianifica ed esegue azioni per conto dell'utente (che si tratti di un essere umano o di un altro agente). Un agente ha più componenti, che possono includere modelli, API o altri strumenti.
Esistono diverse caratteristiche che definiscono gli agenti. In un contesto di sviluppo web, devi considerare quanto segue:
- Autonomi: gli agenti possono operare senza intervento umano diretto.
- Interattivi: gli agenti possono conversare con altri agenti e con gli esseri umani.
- Reattivo:un agente percepisce il suo ambiente e risponde ai cambiamenti.
- Proattivo: gli agenti possono prendere l'iniziativa per raggiungere obiettivi specifici.
Ad esempio, Example Bookshop è una libreria online. Un utente potrebbe raccogliere consigli su un nuovo libro, in base ai libri che gli piacciono e ad altri interessi, interagendo con un modello linguistico di grandi dimensioni (LLM). L'agente potrebbe indirizzare l'utente alla pagina del libro consigliato e iniziare la procedura di pagamento. Se il libro non era disponibile, l'agente poteva indirizzare l'utente all'acquisto del libro consigliato in un'altra libreria online.
Gli agenti sono utenti relativamente nuovi sul web, quindi hai un po' di tempo prima di dover adottare le best practice. Tuttavia, molte delle best practice per aiutare gli agenti aiutano in realtà tutti gli utenti, in particolare la creazione di un sito web accessibile.
In questo documento esaminiamo il funzionamento degli agenti come utenti web e perché dovresti progettare il tuo sito web tenendo conto degli agenti.
Come operano gli agenti in qualità di utenti
Gran parte della discussione sull'AI e sui siti web si è concentrata sui crawler utilizzati per estrarre i dati di addestramento per i LLM. I dati sottoposti a scraping per l'addestramento vengono spesso conservati in set di dati aperti come Common Crawl, il che contribuisce a evitare che i siti vengano sovraccaricati dai crawler. Tuttavia, l'addestramento è solo uno dei motivi per cui incontrerai sistemi di AI.
I sistemi di AI possono scegliere come target pagine specifiche da sottoporre a scraping, in base alla richiesta di un utente specifico (che si tratti di un essere umano o di un agente). Ad esempio, un utente potrebbe fornire fonti a NotebookLM e il sistema esegue lo scraping dei contenuti per aiutare meglio l'utente con attività correlate, come il riepilogo o l'aggregazione dei dati.
Gli agenti seguono pattern simili ed eseguono la scansione delle pagine per conto dell'utente, per rispondere alla sua richiesta, ma il flusso potrebbe essere meno lineare.
Gli agenti sono stati a lungo utilizzati per le attività di automazione e la raccolta di informazioni, ora possono fare clic su link e pulsanti, compilare campi e scorrere le pagine, completando i flussi di lavoro per conto degli utenti. Possono essere piccole attività, come compilare moduli di contatto, o attività più complesse, come prenotare voli per la tua famiglia.
Comprendere il consenso è l'abilità più importante per questi nuovi tipi di agenti, in quanto agiscono come compagni per gli esseri umani. Gli agenti devono chiedere la conferma in punti critici, ad esempio in un passaggio di acquisto o durante l'invio di un modulo con informazioni sensibili.
Agenti come companion
Gli agenti possono essere compagni o persino sostituti degli utenti umani, aiutandoli a completare attività complesse sul tuo sito web o nella tua applicazione web. A livello generale, la procedura di un agente è sempre la stessa:
- Ricevi la query.
- Elabora e pianifica come rispondere alla query.
- Esegui il piano.
- Salva nella memoria le lezioni apprese.
Gli agenti sono più adatti a supportare attività su più origini. Nel caso di acquisti di libri, l'agente potrebbe completare un'attività sulla tua origine, navigando anche in altre origini simili. Più il tuo sito supporta un agente nel completamento dell'attività, più è probabile che l'agente la completi con la tua origine.
Il tuo lavoro come sviluppatore web è supportare e creare strumenti per aiutare le persone e gli agenti a completare in modo efficiente le attività critiche. Ma gli strumenti sono solo un elemento dell'infrastruttura dell'agente.
Infrastruttura dell'agente
Un agente è un'unità contenuta con più parti collegate:
- Modello: i modelli linguistici di grandi dimensioni (LLM) sono la base di un agente AI. Questi forniscono ragionamento, una base di conoscenza e la capacità di elaborare e generare linguaggio.
- Regole: vari vincoli, tra cui una persona, istruzioni e obiettivi, aiutano l'agente a svolgere le attività in modo coerente.
- Memoria: la memoria a breve termine e a lungo termine aiutano un agente a gestire il contesto, a migliorare l'efficienza e, in generale, a offrire prestazioni migliori per l'utente.
- Strumenti: esistono molti strumenti diversi che un agente può utilizzare, tra cui API, funzioni, database e persino altri agenti. Ad esempio, WebMCP è una proposta del programma di anteprima di Chrome per supportare le interazioni strutturate sul tuo sito web.
Quando gli agenti trattano i siti web come origini dati o interagiscono direttamente con le pagine, possono farlo visivamente o semanticamente:
- Interazione visiva: l'agente scatta un'istantanea della pagina web visualizzata. Utilizza un modello di visione per leggere i contenuti e identificare gli elementi interattivi.
- Interazione semantica: l'agente analizza il DOM e legge direttamente il testo. Ciò è particolarmente comune per gli agenti che eseguono attività automatizzate.
Per le interazioni visive e semantiche, gli agenti traggono vantaggio da siti ben progettati, intuitivi da navigare e con una gerarchia dei contenuti chiara.
Gli agenti richiedono l'accesso ai dati
Un modo per definire gli agenti è in base alla loro relazione con i dati. Il proprietario dell'agente e dei dati è lo stesso o diverso? Questa scelta determina i livelli di autenticazione necessari e la difficoltà di completare l'attività.
Agente zero-party
Un agente zero-party è un agente basato su browser o sistema operativo che agisce in un contesto locale utilizzando dati locali. Poiché i browser e i sistemi operativi memorizzano le preferenze utente personalizzate che potrebbero essere considerate informazioni che consentono l'identificazione personale (PII), un agente zero-party può impedire le operazioni che condividono questi dati con altre parti.
Agente proprietario
Un agente proprietario è quando lo strumento e le informazioni sono di proprietà della stessa parte, quindi gli sviluppatori possono possedere e supportare gli strumenti, gestire l'accesso alle informazioni e alla configurazione.
Ad esempio, supponiamo che tu sia un utente che sta pianificando una vacanza a Toronto e che tu voglia creare un elenco di luoghi da visitare. Un agente fornito da Google Maps potrebbe prendere un insieme di criteri e dati per generare un elenco di punti di interesse per tuo conto, contrassegnando ogni elemento sulla mappa. Questo potrebbe essere considerato un agente proprietario, in quanto l'agente è fornito da Google, che possiede anche i dati delle mappe e qualsiasi altra preferenza personale memorizzata da un utente che ha eseguito l'accesso.
Agente di terze parti
Un agente di terze parti viene creato da uno sviluppatore o un'organizzazione esterni e offre funzioni e dati di servizi esterni. Ad esempio, potresti voler che un fornitore di calendari di terze parti supporti una funzionalità basata sugli eventi sul tuo sito web. Potresti offrire a questi agenti strumenti come WebMCP o integrarli nei tuoi workflow (supponendo che superino la revisione della privacy).
Un agente di terze parti potrebbe completare la stessa attività di mappatura, se creata come estensione.
Gli sviluppatori potrebbero creare un agente che si basa su fonti specifiche per creare elenchi, ad esempio acquisendo i migliori ristoranti dai giornali locali. Questo agente avrebbe bisogno dell'accesso in lettura ai siti dei giornali locali, oltre all'accesso in lettura e scrittura a uno strumento di creazione di elenchi, che si tratti di Google Maps o di un servizio alternativo. Ciò richiede diversi livelli di consenso e autorizzazioni, nonché strumenti specifici per interagire con i siti (ad esempio uno strumento Playwright).
È probabile che il tuo sito web o la tua applicazione web sia un fornitore di informazioni di terze parti per un agente. In questo caso, potresti voler offrire una struttura di autorizzazioni che consenta ad agenti e persone di completare le attività con te.
Concetti principali
Ora che hai compreso il funzionamento degli agenti, puoi decidere come il tuo sito web può supportarli al meglio.
- Scopri di più su WebMCP e partecipa al programma di anteprima.
- Scopri come creare un sito web accessibile.
- Segui il corso Learn AI per capire come aggiungere sistemi di AI ai tuoi siti.
Continueremo ad aggiornare questa serie con best practice attuabili per supportare le interazioni del tuo sito web e della tua applicazione web con gli agenti.