Grazie per aver seguito Google I/O. Guarda i contenuti on demand.

Questa pagina è stata tradotta dall'API Cloud Translation.

IA dimensionata correttamente: un vantaggio per le aziende, gli utenti e il pianeta

Rachel Lee Nabors

Data di pubblicazione: 10 novembre 2025

Quando crei siti web e app web con l'AI, potresti aver creato prototipi con un modello linguistico di grandi dimensioni (LLM), come ChatGPT, Gemini o Claude, per poi eseguire il deployment dell'implementazione in produzione. Un LLM è un tipo di foundation model, un modello preaddestrato molto grande, che richiede molte risorse, è costoso e spesso non è lo strumento migliore per l'attività. I modelli più piccoli, locali e specifici per attività consumano meno risorse e spesso forniscono risposte migliori e più rapide a costi inferiori rispetto ai modelli di base "taglia unica".

Quando scegli un modello migliore, scegli un approccio più sostenibile, che chiameremo AI dimensionata correttamente. L'AI dimensionata correttamente offre:

Latenza inferiore per gli utenti quando i modelli vengono eseguiti localmente, anziché su server distanti.
Costi delle API ridotti quando non paghi per le funzionalità inutilizzate.
Accesso offline all'app ai modelli lato client sul dispositivo, creando esperienze più affidabili.

Sebbene i foundation model eccellano nel ragionamento e nella conversazione generali, utilizzarli per attività specifiche (come la classificazione del testo o l'estrazione di dati) è come usare una Formula 1 per andare da McDonald's. È tecnicamente possibile, ma molto inefficiente (e scomodo per i passeggeri). Adatta invece l'implementazione alle tue esigenze effettive.

Le pratiche di AI sostenibile e le esperienze utente ottimali non sono priorità in competizione. Si tratta della stessa priorità espressa in modo diverso.

Un modo per valutare l'impatto ambientale dell'AI è:

Addestramento: l'addestramento iniziale del modello richiede risorse significative. Questa ottimizzazione e "apprendimento" sono gestiti dal fornitore del modello.
Inferenza: esegui l'inferenza quando fornisci a un modello addestrato un nuovo input (un prompt) per generare un output (il testo della risposta). Rispetto all'addestramento, l'inferenza utilizza molte meno risorse.

L'addestramento è un costo fisso, ma il costo dell'inferenza aumenta con l'utilizzo, il che rende la scelta del modello un fattore chiave che puoi controllare. Puoi fare scelte consapevoli per il tuo caso d'uso e per il pianeta, supportando lo sviluppo di un'AI responsabile.

Implementare l'AI incentrata sull'utente

Invece di creare un'AI incentrata sul modello, crea un'AI incentrata sull'utente. Valuta quali attività potrebbe svolgere l'IA per rendere la tua app più facile da usare o ridurre il carico di lavoro degli utenti o la quantità di cambi di contesto che devono effettuare.

Ad esempio, supponiamo che tu gestisca un'attività chiamata Rewarding Eats, che assegna punti agli utenti che cenano in determinati ristoranti. Potresti utilizzare l'AI per scansionare un'immagine della ricevuta per il nome del ristorante e la spesa totale, anziché richiedere ai tuoi clienti di inserirli manualmente. Questa funzionalità probabilmente migliorerebbe l'esperienza utente della tua applicazione.

Quando crei un'AI incentrata sull'utente:

Definisci i requisiti dell'attività. Quali attività deve svolgere l'AI? Sono interamente basati su testo o includono componenti audio o visivi?
Scegli il modello appropriato. Modelli diversi sono più efficienti in diverse attività e spesso hanno un impatto ambientale minore.
Comprendere i vincoli di implementazione. Dove ha senso che risieda il modello? Dove si troveranno i dati? L'utente avrà una connessione affidabile?
Implementa il miglioramento progressivo per un'esperienza utente più rapida e sicura.

Definisci i requisiti dell'attività

Anziché cercare "luoghi in cui utilizzare l'AI" o "funzionalità di AI da aggiungere", dovresti chiederti: "Come sarebbe un'esperienza senza attriti?" A seconda delle dimensioni della tua azienda, questa conversazione deve essere tenuta con i product manager.

Prendiamo ad esempio la nostra app Rewarding Eats. La prima domanda da porsi è: "Abbiamo bisogno dell'AI per questo?"

Un modello di base potrebbe creare una bozza di spesa da una ricevuta, con alcuni prompt. Tuttavia, un modo più efficiente per gestire questo problema non richiede un modello di grandi dimensioni. Utilizza il riconoscimento ottico dei caratteri (OCR) per analizzare il testo dell'immagine e trasferirlo a un modello specifico per l'attività, ad esempio un modello di classificazione del testo, per identificare gli articoli e i costi dal testo analizzato. Questa operazione può essere eseguita sul dispositivo dell'utente, senza inviare dati ai server.

Nella maggior parte dei casi, se ritieni di aver bisogno di un foundation model, probabilmente devi suddividere il problema in attività separate.

Scegli il modello appropriato

Una volta che sai quali attività stai cercando di completare, puoi scegliere il tipo di modello e il modello giusti per il lavoro. Anche se è più facile utilizzare un modello di base, i modelli più piccoli svolgono il lavoro in modo più rapido ed economico. Quando comprendi il tuo compito, puoi scegliere il modello piccolo e specifico per l'attività giusto per gestire il lavoro.

Esistono molti tipi di modelli e modelli diversi disponibili, quindi leggi l'articolo Approfondimento sulla selezione dei modelli per determinare la scelta giusta per il tuo progetto.

Scegliere la posizione giusta per il modello

Mentre i foundation model sono troppo grandi per essere eseguiti anche sui desktop più potenti, i modelli LLM più piccoli, i modelli linguistici di piccole dimensioni (SLM) e i modelli specifici per attività possono essere eseguiti su molti dispositivi.

Tipo di modello	Già sul dispositivo (lato client)	Scarica sul dispositivo	Modello ospitato sul server
Modello specifico per l'attività	Sconsigliato	Sconsigliato	Consigliato
Small Language Model (SLM)	Consigliato	Consigliato	Consigliato
Foundation Models	Sconsigliato	Sconsigliato	Consigliato

Gli SLM sono comodi ma rari. Esistono miliardi di telefoni cellulari e solo i modelli più recenti e costosi sono in grado di eseguire SLM locali. Si tratta di una piccola percentuale del mercato.

Utilizza questa matrice per determinare la posizione migliore per il tuo modello:

Metrica	Lato client / locale	Lato server / remoto
Connettività	Modalità offline richiesta, reti instabili, strutture sicure	Ambienti sempre online
Posizione dei dati	Elaborazione di foto dell'utente, input di testo, file personali	Utilizzo di documenti e database lato server
Pattern di utilizzo	Chiamate ad alta frequenza (traduzione della chat, analisi in tempo reale)	Attività complesse occasionali
Larghezza di banda	Utenti di dispositivi mobili, aree rurali, output di file di grandi dimensioni	Banda larga illimitata, risposte brevi
Privacy e sicurezza	Dati regolamentati (sanitari, finanziari), conformità rigorosa	Dati aziendali standard, infrastruttura di sicurezza consolidata
Impatto sulla batteria	App per computer, casi d'uso con tolleranza all'alimentazione	App mobile con batteria limitata

Inferenza lato client, miglioramento progressivo e ibrido

Con librerie come TensorFlow.js, Transformers.js e ONNX.js, le tue applicazioni possono eseguire l'inferenza lato client con i dati utente. Converti il modello nel formato appropriato, poi ospitalo da remoto o incorporalo direttamente nella tua app. La migliore esperienza utente utilizza un mix perfetto di modelli precaricati, scaricabili e remoti, in modo che gli utenti possano lavorare senza compromessi.

Anche se l'utilizzo di un modello remoto ospitato sul cloud è preferibile per la sicurezza (o per le esigenze di dimensioni), la disponibilità di modelli locali sufficienti in caso di perdita di connettività può creare un'esperienza flessibile.

In definitiva, esistono tre approcci al deployment del modello. Scegli quella più adatta alle tue esigenze.

Priorità locale:l'app ha requisiti offline, utilizzo ad alta frequenza, dati sensibili.
Priorità al remoto:ragionamento complesso, modelli di grandi dimensioni, utilizzo poco frequente.
Approccio ibrido:scarica modelli di piccole dimensioni durante l'utilizzo delle API e passa a modelli più grandi quando sono pronti.

Passaggi successivi

La tecnologia spesso segue l'implementazione. Il modo migliore per gli sviluppatori di influenzare la direzione del settore, a favore di un'esperienza migliore per l'utente e di un risultato migliore per il nostro mondo, è:

Scegli lo strumento giusto per il lavoro. I modelli più piccoli consumano meno risorse e spesso hanno le stesse prestazioni dei modelli di grandi dimensioni, con l'aiuto dell'ingegneria dei prompt. Hanno una latenza ridotta.
Richiedere la trasparenza dei costi di inferenza e addestramento. Chiedi alla tua azienda di dare la priorità ai modelli che divulgano questi numeri.
Posiziona il modello vicino ai dati per ridurre il costo dei round trip a un server.
Utilizza ciò che è già disponibile. Se sul dispositivo sono già presenti modelli, dai la priorità a questi modelli.

Risorse

Se vuoi approfondire questi argomenti, ho utilizzato le seguenti risorse per scrivere questo articolo. Sono ottimi per la lettura.

Prestazioni e ricerca del modello

Small Language Models are the Future of Agentic AI (NVIDIA Research Paper): Ricerca a supporto delle funzionalità SLM
Audit sull'impatto ambientale di Mistral: Trasparenza dei costi di addestramento e inferenza
Studio sui costi di inferenza di Google: Misurazione dell'impatto ambientale
Studio sulla natura: impatto ambientale dell'AI rispetto a quello umano: Analisi comparativa del completamento delle attività da parte dell'AI e dell'uomo
Discussione sull'impatto ambientale dell'AI: Contesto sul discorso ambientale

Strumenti di implementazione e sviluppo

Caricamento del modello TensorFlow.js: Deployment del modello lato client
Esempi di Transformers.js: Inferenza del modello basata sul browser
Runtime ONNX.js: deployment di modelli multipiattaforma
Guida all'AI ibrida di Firebase: Integrazione di modelli locali e remoti