Introduzione agli agenti

Pubblicato il 25 febbraio 2025

Alexandra Klepper
Alexandra Klepper
Kasper Kulikowski
Kasper Kulikowski

Gli sviluppatori web hanno creato e ottimizzato siti web per segmenti di pubblico umani e non umani, inclusi crawler e altri bot. Gli agenti AI sono gli ultimi utenti web a trarre vantaggio dalla tua ottimizzazione.

In sostanza, un agente è un sistema che riceve input, li interpreta, quindi pianifica ed esegue azioni per conto dell'utente (che sia un essere umano o un altro agente). Un agente ha più componenti, che possono includere modelli, API o altri strumenti.

Esistono diverse caratteristiche che definiscono gli agenti. In un contesto di sviluppo web, devi considerare quanto segue:

  • Autonomi: gli agenti possono operare senza l'intervento umano diretto.
  • Interattivi: gli agenti possono conversare con altri agenti e con gli esseri umani.
  • Reattivi: un agente percepisce il suo ambiente e risponde ai cambiamenti.
  • Proattivi: gli agenti possono prendere l'iniziativa per raggiungere obiettivi specifici.

Ad esempio, Example Bookshop è una libreria online. Un utente potrebbe raccogliere consigli per un nuovo libro, in base ai libri che gli piacciono e ad altri interessi, interagendo con un modello linguistico di grandi dimensioni (LLM). Un agente potrebbe portare l'utente a lla pagina del libro consigliato e avviare la procedura di pagamento. Se il libro non era disponibile, l'agente poteva portare l'utente ad acquistare il libro consigliato in un'altra libreria online.

Poiché gli agenti sono utenti web relativamente nuovi, hai un po' di tempo prima di dover adottare le best practice. Tuttavia, molte delle best practice per aiutare gli agenti aiutano in realtà tutti gli utenti, in particolare la creazione di un sito web accessibile.

In questo documento esaminiamo il funzionamento degli agenti come utenti web e perché dovresti prendere in considerazione la creazione del tuo sito web tenendo conto degli agenti.

Come operano gli agenti come utenti

Gran parte della discussione sull'AI e sui siti web riguarda i crawler utilizzati per eseguire lo scraping dei dati di addestramento per gli LLM. I dati sottoposti a scraping per l'addestramento vengono spesso conservati in set di dati aperti come Common Crawl, il che aiuta a evitare che i siti vengano sovraccaricati dai crawler. Tuttavia, l'addestramento è solo uno dei motivi per cui incontrerai i sistemi di AI.

I sistemi di AI possono scegliere come target pagine specifiche per lo scraping, in base alla richiesta di un utente specifico (che sia un essere umano o un agente). Ad esempio, un utente potrebbe fornire fonti a NotebookLM e il sistema esegue lo scraping dei contenuti per aiutare meglio l'utente con attività correlate, come il riepilogo o l'aggregazione dei dati.

Gli agenti seguono pattern simili ed eseguono la scansione delle pagine per conto dell'utente, per rispondere alla sua richiesta, ma il flusso potrebbe essere meno lineare.

Sebbene gli agenti siano stati a lungo utilizzati per le attività di automazione e la raccolta di informazioni, ora possono fare clic su link e pulsanti, compilare campi e scorrere le pagine, completando i flussi di lavoro per conto degli utenti. Queste possono essere piccole attività, come la compilazione di moduli di contatto, o attività più complesse, come la prenotazione di voli per la famiglia.

La comprensione del consenso è la competenza più importante per questi nuovi tipi di agenti, in quanto fungono da compagni per gli esseri umani. Gli agenti devono chiedere la conferma nei punti critici, ad esempio in un passaggio di acquisto o nell'invio di un modulo con informazioni sensibili.

Agenti come compagni

Gli agenti possono essere compagni o persino sostituti degli utenti umani, aiutandoli a completare attività complesse sul tuo sito web o nella tua applicazione web. In linea generale, la procedura di un agente è sempre la stessa:

  1. Riceve la query.
  2. Elabora e pianifica come rispondere alla query.
  3. Esegue il piano.
  4. Salva nella memoria le lezioni apprese.

Gli agenti sono più adatti a supportare le attività su più origini. Nel caso dell'acquisto di libri, l'agente potrebbe completare un'attività sulla tua origine, navigando anche in altre origini simili. Più il tuo sito supporta un agente nel completamento dell'attività, più è probabile che l'agente la completi con la tua origine.

Il tuo compito come sviluppatore web è supportare e creare strumenti per aiutare gli esseri umani e gli agenti a completare in modo efficiente le attività critiche. Tuttavia, gli strumenti sono solo una parte dell' infrastruttura degli agenti.

Infrastruttura degli agenti

Gli esseri umani collaborano con gli agenti. Ogni parte invia e restituisce informazioni al modello.
Un essere umano lavora con un agente, che contiene un modello, regole, memoria e strumenti.

Un agente è un'unità contenuta con più parti connesse:

  • Modello: i modelli linguistici di grandi dimensioni (LLM) sono la base di un agente AI. Forniscono ragionamento, una base di conoscenza e la capacità di elaborare e generare il linguaggio.
  • Regole: vari vincoli, tra cui una persona, istruzioni e obiettivi, aiutano l'agente a eseguire le attività in modo coerente.
  • Memoria: la memoria a breve termine e la memoria a lungo termine aiutano un agente a gestire il contesto, aumentare l'efficienza e, in generale, a ottenere risultati migliori per l'utente.
  • Strumenti: esistono molti strumenti diversi che un agente può utilizzare, tra cui API, funzioni, database e persino altri agenti. Ad esempio, WebMCP è una proposta nel programma di anteprima iniziale di Chrome per supportare le interazioni strutturate sul tuo sito web.

Quando gli agenti trattano i siti web come origini dati o interagiscono direttamente con le pagine, possono farlo visivamente o semanticamente:

  • Interazione visiva: l'agente scatta un'istantanea della pagina web sottoposta a rendering. Utilizza un modello di visione per leggere i contenuti e identificare gli elementi interattivi.
  • Interazione semantica: l'agente analizza il DOM e legge direttamente il testo. Questo è particolarmente comune per gli agenti che eseguono attività automatizzate.

Sia per le interazioni visive sia per quelle semantiche, gli agenti traggono vantaggio dai siti ben progettati, intuitivi da navigare e con una gerarchia dei contenuti chiara.

Gli agenti richiedono l'accesso ai dati

Un modo per definire gli agenti è in base alla loro relazione con i dati. Il proprietario dell' agente e dei dati è lo stesso o diverso? Questa scelta determina i livelli di autenticazione necessari e la difficoltà di completare l'attività.

Agente di terze parti

Un agente di terze parti è un agente basato su browser che agisce in un contesto locale, utilizzando dati locali. Poiché i browser memorizzano le preferenze utente personalizzate che potrebbero essere considerate informazioni che consentono l'identificazione personale (PII), un agente di terze parti può impedire le operazioni che condividono questi dati con altre parti.

Agente proprietario

Un agente proprietario è quando lo strumento e le informazioni sono di proprietà della stessa parte, in modo che gli sviluppatori possano possedere e supportare gli strumenti, gestire l'accesso alle informazioni e alla configurazione.

Ad esempio, supponiamo che tu sia un utente che sta pianificando una vacanza a Toronto e che voglia creare un elenco di luoghi da visitare. Un agente fornito da Google Maps potrebbe prendere un insieme di criteri e dati per generare un elenco di punti di interesse per tuo conto, contrassegnando ogni elemento sulla mappa. Questo potrebbe essere considerato un agente proprietario in quanto l'agente è fornito da Google, che possiede anche i dati della mappa e qualsiasi altra preferenza personale memorizzata da un utente che ha eseguito l'accesso.

Agente di terze parti

Un agente di terze parti viene creato da uno sviluppatore o un'organizzazione esterni e offre funzioni e dati di servizi esterni. Ad esempio, potresti voler che un fornitore di calendari di terze parti supporti una funzionalità basata su eventi sul tuo sito web. Potresti offrire strumenti a questi agenti, come WebMCP, o integrarli nei tuoi flussi di lavoro (supponendo che superino la revisione della privacy).

Un agente di terze parti potrebbe teoricamente completare la stessa attività di mappatura, se creato come estensione.

Gli sviluppatori potrebbero creare un agente che si basa su fonti specifiche per creare elenchi, ad esempio acquisendo i migliori ristoranti dai giornali locali. Questo agente avrebbe bisogno dell'accesso in lettura ai siti dei giornali locali, oltre all'accesso in lettura e scrittura a uno strumento di creazione di elenchi, che si tratti di Google Maps o di un servizio alternativo. Ciò richiede diversi livelli di consenso e autorizzazioni, nonché strumenti specifici per interagire con i siti (ad esempio uno strumento Playwright).

È probabile che il tuo sito web o la tua applicazione web siano un fornitore di informazioni di terze parti per un agente. In questo caso, potresti voler offrire una struttura di autorizzazioni che consenta agli agenti e agli esseri umani di completare le attività con te.

Concetti principali

Ora che hai compreso il funzionamento degli agenti, puoi decidere in che modo il tuo sito web può supportarli al meglio.

  • Leggi informazioni su WebMCP e partecipa al programma di anteprima iniziale.
  • Scopri come creare un sito web accessibile.
  • Segui il corso Learn AI per capire come aggiungere sistemi di AI possono essere aggiunti ai tuoi siti.

Continueremo ad aggiornare questa serie con best practice pratiche per supportare le interazioni del tuo sito web e della tua applicazione web con gli agenti.