Vielen Dank, dass du bei der Google I/O dabei warst! Inhalte on demand ansehen

Diese Seite wurde von der Cloud Translation API übersetzt.

KI in der richtigen Größe: Gut für Unternehmen, Nutzer und den Planeten

Rachel Lee Nabors

Veröffentlicht: 10. November 2025

Wenn Sie Websites und Web-Apps mit KI erstellen, haben Sie möglicherweise Prototypen mit einem Large Language Model (LLM) wie ChatGPT, Gemini oder Claude erstellt und diese Implementierung dann in der Produktion bereitgestellt. Ein LLM ist eine Art Foundation Model, ein sehr großes, vortrainiertes Modell, das ressourcenintensiv und teuer ist und oft nicht das beste Tool für die jeweilige Aufgabe darstellt. Kleinere, lokale, aufgabenspezifische Modelle verbrauchen weniger Ressourcen und liefern oft bessere, schnellere Antworten zu geringeren Kosten als Foundation Models, die für alle Aufgaben geeignet sind.

Wenn Sie ein besseres Modell auswählen, entscheiden Sie sich für einen nachhaltigeren Ansatz, den wir angepasste KI nennen. KI im richtigen Umfang bietet folgende Vorteile:

Geringere Latenz für Nutzer, wenn Modelle lokal ausgeführt werden, anstatt auf entfernten Servern.
Geringere API-Kosten, da Sie nicht für ungenutzte Funktionen bezahlen.
Offline-App-Zugriff auf clientseitige Modelle auf dem Gerät, um zuverlässigere Funktionen zu ermöglichen.

Basismodelle eignen sich zwar hervorragend für allgemeine Schlussfolgerungen und Unterhaltungen, aber sie für bestimmte Aufgaben (z. B. Textklassifizierung oder Datenextraktion) zu verwenden, ist wie mit einem Formel-1-Auto zu McDonald's zu fahren. Es ist technisch möglich, aber sehr ineffizient (und unbequem für Ihre Fahrgäste). Passen Sie die Implementierung stattdessen an Ihre tatsächlichen Anforderungen an.

Nachhaltige KI-Praktiken und eine optimale Nutzererfahrung sind keine konkurrierenden Prioritäten. Sie haben dieselbe Priorität, werden aber unterschiedlich ausgedrückt.

Eine Möglichkeit zur Bewertung der Umweltauswirkungen von KI ist:

Training: Das erste Training des Modells erfordert erhebliche Ressourcen. Diese Optimierung und das „Lernen“ werden vom Modellanbieter verwaltet.
Inferenz: Sie führen eine Inferenz durch, wenn Sie einem trainierten Modell eine neue Eingabe (einen Prompt) geben, um eine Ausgabe (den Antworttext) zu generieren. Im Vergleich zum Training werden für die Inferenz wesentlich weniger Ressourcen benötigt.

Das Training ist eine feste Größe, die Kosten für die Inferenz skalieren jedoch mit der Nutzung. Die Modellauswahl ist daher ein wichtiger Faktor, den Sie kontrollieren können. So können Sie fundierte Entscheidungen für Ihren Anwendungsfall und für die Umwelt treffen und eine verantwortungsbewusste KI-Entwicklung unterstützen.

User-First-KI implementieren

Entwickeln Sie KI nicht modell-, sondern nutzerorientiert. Überlegen Sie, welche Aufgaben KI übernehmen könnte, um die Nutzung Ihrer App zu vereinfachen oder die Arbeitsbelastung Ihrer Nutzer bzw. die Anzahl der Kontextwechsel zu verringern, die sie vornehmen müssen.

Angenommen, Sie betreiben ein Unternehmen namens Rewarding Eats, das Nutzern Punkte für Restaurantbesuche in bestimmten Restaurants gibt. Sie könnten KI verwenden, um ein Bild eines Belegs nach dem Namen des Restaurants und den Gesamtausgaben zu durchsuchen, anstatt Ihre Kunden zu bitten, diese manuell einzugeben. Diese Funktion würde wahrscheinlich die Nutzerfreundlichkeit Ihrer Anwendung verbessern.

Bei der Entwicklung von KI, die auf den Nutzer ausgerichtet ist, gilt Folgendes:

Aufgabenanforderungen definieren: Welche Aufgaben muss die KI ausführen? Sind sie rein textbasiert oder enthalten sie Audio- oder visuelle Komponenten?
Wählen Sie das passende Modell aus. Verschiedene Modelle sind für unterschiedliche Aufgaben effizienter und haben oft einen geringeren Speicherbedarf.
Bereitstellungseinschränkungen Wo ist es sinnvoll, das Modell zu hosten? Wo werden die Daten gespeichert? Hat der Nutzer eine zuverlässige Verbindung?
Implementieren Sie mit Progressive Enhancement, um die schnellste und sicherste Nutzererfahrung zu erzielen.

Anforderungen an die Aufgabe definieren

Anstatt nach „Orten für KI“ oder „KI-Funktionen zum Hinzufügen“ zu suchen, sollten Sie sich fragen: „Wie sieht eine reibungslose Nutzung aus?“ Je nach Größe Ihres Unternehmens sollten Sie sich mit den Produktmanagern austauschen.

Nehmen wir unsere Beispiel-App „Rewarding Eats“. Die erste Frage, die Sie sich stellen sollten, lautet: „Brauchen wir dafür KI?“

Ein Foundation Model könnte mit einigen Prompts eine Ausgabe für eine Ausgabe aus einer Quittung erstellen. Für eine effizientere Lösung ist jedoch kein großes Modell erforderlich. Verwenden Sie die optische Zeichenerkennung (Optical Character Recognition, OCR), um den Text aus dem Bild zu parsen und an ein aufgabenbezogenes Modell wie ein Textklassifizierungsmodell zu übergeben, um die Positionen und Kosten aus dem geparsten Text zu ermitteln. Das kann auf dem Gerät des Nutzers erfolgen, ohne dass Daten an Server gesendet werden.

Wenn Sie glauben, dass Sie ein Foundation Model benötigen, müssen Sie das Problem in den meisten Fällen in separate Aufgaben unterteilen.

Das richtige Modell auswählen

Sobald Sie wissen, welche Aufgaben Sie ausführen möchten, können Sie den richtigen Modelltyp und das richtige Modell für die Aufgabe auswählen. Es ist zwar einfacher, ein Foundation-Modell zu verwenden, aber kleinere Modelle erledigen die Aufgabe schneller und kostengünstiger. Wenn Sie Ihre Aufgabe kennen, können Sie das richtige kleine, aufgabenspezifische Modell für die Arbeit auswählen.

Es gibt viele verschiedene Arten von Modellen und Modelltypen. Lesen Sie daher den ausführlichen Artikel zur Auswahl von Modellen, um die richtige Wahl für Ihr Projekt zu treffen.

Den richtigen Speicherort für Ihr Modell auswählen

Foundation Models sind zu groß, um selbst auf den leistungsstärksten Computern ausgeführt zu werden. Kleinere LLMs, Small Language Models (SLMs) und aufgabenspezifische Modelle können jedoch auf vielen Geräten ausgeführt werden.

Modelltyp	Bereits auf dem Gerät (clientseitig)	Auf deine Smartwatch herunterladen	Servergehostetes Modell
Aufgabenspezifisches Modell	Nicht empfohlen	Nicht empfohlen	Empfohlen
Small Language Model (SLM)	Empfohlen	Empfohlen	Empfohlen
Foundation Models	Nicht empfohlen	Nicht empfohlen	Empfohlen

SLMs sind praktisch, aber ungewöhnlich. Es gibt Milliarden von Smartphones und nur die neuesten und teureren Modelle können lokale SLMs ausführen. Das ist ein kleiner Prozentsatz des Marktes.

Anhand dieser Matrix können Sie den besten Speicherort für Ihr Modell ermitteln:

Messwert	Clientseitig / Lokal	Serverseitig / Remote
Konnektivität	Offline-Modus erforderlich, lückenhafte Netzwerke, sichere Einrichtungen	Always-on-Umgebungen
Speicherort der Daten	Verarbeitung von Nutzerfotos, Texteingaben und persönlichen Dateien	Mit serverseitigen Dokumenten und Datenbanken arbeiten
Nutzungsmuster	Häufige Aufrufe (Chat-Übersetzung, Echtzeitanalyse)	Gelegentliche komplexe Aufgaben
Bandbreite	Mobile Nutzer, ländliche Gebiete, große Dateiausgaben	Unbegrenzte Breitbandverbindung, kurze Antworten
Datenschutz und Sicherheit	Regulierte Daten (Gesundheitswesen, Finanzen), strenge Compliance	Standardmäßige Geschäftsdaten, etablierte Sicherheitsinfrastruktur
Akkuauswirkungen	Desktop-Apps, stromtolerante Anwendungsfälle	Mobile Apps mit begrenzter Akkulaufzeit

Clientseitige Inferenz, Progressive Enhancement und Hybrid

Mit Bibliotheken wie TensorFlow.js, Transformers.js und ONNX.js können Ihre Anwendungen clientseitige Inferenz mit Nutzerdaten durchführen. Sie konvertieren Ihr Modell in das entsprechende Format, hosten es dann remote oder betten es direkt in Ihre App ein. Für die beste Nutzererfahrung ist eine nahtlose Mischung aus vorab geladenen, herunterladbaren und Remote-Modellen erforderlich, damit Nutzer ohne Einschränkungen arbeiten können.

Auch wenn die Verwendung eines Remote-Modells, das in der Cloud gehostet wird, aus Sicherheitsgründen (oder aufgrund von Größenanforderungen) bevorzugt wird, kann die Bereitstellung ausreichender lokaler Modelle bei Verbindungsverlust für Flexibilität sorgen.

Es gibt drei Ansätze für die Modellbereitstellung. Wählen Sie die für Ihre Anforderungen am besten geeignete Option aus.

Local-First:Die App hat Offlineanforderungen, wird häufig verwendet und verarbeitet vertrauliche Daten.
Remote-first:Komplexe Schlussfolgerungen, große Modelle, seltene Nutzung.
Hybridansatz:Laden Sie kleine Modelle herunter, während Sie APIs verwenden, und wechseln Sie, wenn Sie bereit sind.

Ihre nächsten Schritte

Die Technologie folgt oft der Implementierung. Entwickler können die Richtung der Branche am besten beeinflussen, um Nutzern ein besseres Erlebnis und unserer Welt ein besseres Ergebnis zu bieten, indem sie:

Das richtige Tool für die Aufgabe auswählen: Kleinere Modelle verbrauchen weniger Ressourcen und sind mit Prompt Engineering oft genauso leistungsstark wie große Modelle. Sie haben eine geringere Latenz.
Transparenz bei den Kosten für Inferenz und Training erforderlich: Setzen Sie sich dafür ein, dass Ihr Unternehmen Modelle priorisiert, in denen diese Zahlen offengelegt werden.
Platzieren Sie das Modell in der Nähe der Daten, um die Kosten für Roundtrips zu einem Server zu senken.
Bereits vorhandene Inhalte nutzen: Wenn bereits Modelle auf dem Gerät vorhanden sind, sollten diese zuerst verwendet werden.

Ressourcen

Wenn Sie sich näher mit diesen Themen befassen möchten, finden Sie hier die Ressourcen, die ich für diesen Artikel verwendet habe. Sie sind eine ausgezeichnete Lektüre.

Modellleistung und Forschung

Small Language Models are the Future of Agentic AI (NVIDIA Research Paper): Unterstützung der Forschung zu SLM-Funktionen
Umwelt-Audit von Mistral: Transparenz bei den Kosten für Training und Inferenz
Studie zu den Inferenzkosten von Google: Messung der Umweltauswirkungen
Nature Study: AI versus Human Environmental Impact: Vergleichsanalyse von KI und menschlicher Aufgabenerledigung
Diskussion über die Umweltauswirkungen von KI: Kontext zum Umweltdiskurs

Implementierungs- und Entwicklungstools

TensorFlow.js-Modell laden: Bereitstellung von Modellen auf Clientseite
Transformers.js-Beispiele: Modellinferenz im Browser
ONNX.js-Laufzeit: Plattformübergreifendes Modell-Deployment
Firebase Hybrid AI Guide: Integration lokaler und Remote-Modelle