Einführung in Agents

Veröffentlicht: 25. Februar 2025

Alexandra Klepper
Alexandra Klepper
Kasper Kulikowski
Kasper Kulikowski

Webentwickler erstellen und optimieren Websites für menschliche und nicht menschliche Zielgruppen, einschließlich Crawler und anderer Bots. KI-Agenten sind die neuesten Webnutzer, die von Ihren Optimierungen profitieren.

Im Grunde ist ein Agent ein System, das Eingaben empfängt, interpretiert und dann Aktionen im Namen des Nutzers (sei es ein Mensch oder ein anderer Agent) plant und ausführt. Ein Agent hat mehrere Komponenten, darunter Modelle, APIs oder andere Tools.

Es gibt mehrere Merkmale, die Agents definieren. Im Kontext der Webentwicklung sollten Sie Folgendes berücksichtigen:

  • Autonom: KI‑Agenten können ohne direktes menschliches Eingreifen arbeiten.
  • Interaktiv: Agents können sich mit anderen Agents und Menschen unterhalten.
  • Reaktiv:Ein Agent nimmt seine Umgebung wahr und reagiert auf Veränderungen.
  • Proaktiv: KI-Agenten können die Initiative ergreifen, um bestimmte Ziele zu erreichen.

Beispiel: „Beispielbuchhandlung“ ist ein Online-Buchhandel. Ein Nutzer könnte sich von einem Large Language Model (LLM) Empfehlungen für ein neues Buch geben lassen, die auf seinen Lieblingsbüchern und anderen Interessen basieren. Ein Agent könnte den Nutzer zur Seite des empfohlenen Buchs weiterleiten und den Kaufvorgang starten. Wenn das Buch nicht vorrätig war, konnte der Agent den Nutzer zu einem anderen Online-Buchhändler weiterleiten, um das empfohlene Buch dort zu kaufen.

Da Agents noch relativ neu im Web sind, haben Sie noch etwas Zeit, bevor Sie Best Practices anwenden müssen. Viele der Best Practices, die Kundenservicemitarbeitern helfen, sind jedoch für alle Nutzer hilfreich, insbesondere beim Erstellen einer barrierefreien Website.

In diesem Dokument wird beschrieben, wie Agents als Webnutzer funktionieren und warum Sie Ihre Website für Agents optimieren sollten.

Wie Agents als Nutzer agieren

Ein Großteil der Diskussionen über KI und Websites dreht sich um Crawler, die zum Abrufen von Trainingsdaten für LLMs verwendet werden. Die für das Training gesammelten Daten werden häufig in offenen Datasets wie Common Crawl gespeichert, um zu verhindern, dass Websites von Crawlern überlastet werden. Das Training ist jedoch nur einer der Gründe, warum Sie auf KI-Systeme stoßen.

KI-Systeme können bestimmte Seiten für das Scraping anvisieren, basierend auf der Anfrage eines bestimmten Nutzers (ob Mensch oder Agent). Ein Nutzer könnte NotebookLM beispielsweise Quellen zur Verfügung stellen. Das System ruft dann die Inhalte ab, um dem Nutzer bei ähnlichen Aufgaben wie dem Zusammenfassen oder der Datenaggregation besser helfen zu können.

Agents folgen ähnlichen Mustern und crawlen Seiten im Namen des Nutzers, um die Anfrage des Nutzers zu beantworten. Der Ablauf ist jedoch möglicherweise weniger linear.

Agents werden schon lange für Automatisierungsaufgaben und zum Sammeln von Informationen verwendet. Jetzt können sie auch Links und Schaltflächen anklicken, Felder ausfüllen und auf Seiten scrollen, um Workflows im Namen der Nutzer auszuführen. Das können kleine Aufgaben wie das Ausfüllen von Kontaktformularen oder komplexere Aufgaben wie das Buchen von Flügen für Ihre Familie sein.

Das Verständnis von Einwilligung ist die wichtigste Fähigkeit für diese neuen Arten von KI-Assistenten, da sie als Begleiter für Menschen fungieren. Kundenservicemitarbeiter sollten an kritischen Stellen, z. B. bei einem Kauf oder beim Senden eines Formulars mit vertraulichen Informationen, um eine Bestätigung bitten.

KI-Agenten als Companions

Agents können Begleiter oder sogar Stellvertreter für menschliche Nutzer sein und bei der Erledigung komplexer Aufgaben auf Ihrer Website oder in Ihrer Webanwendung helfen. Auf übergeordneter Ebene ist der Prozess eines Agenten immer derselbe:

  1. Anfrage erhalten
  2. Verarbeite die Anfrage und plane, wie du darauf reagieren möchtest.
  3. Führen Sie den Plan aus.
  4. Speichern Sie alle gewonnenen Erkenntnisse.

Agents eignen sich am besten für Supportaufgaben über mehrere Quellen hinweg. Wenn Sie beispielsweise nach Büchern suchen, kann der Agent eine Aufgabe auf Ihrem Ursprung abschließen und gleichzeitig andere ähnliche Ursprünge durchsuchen. Je besser Ihre Website einen Agenten bei der Erledigung der Aufgabe unterstützt, desto wahrscheinlicher ist es, dass der Agent die Aufgabe mit Ihrem Ursprung abschließt.

Ihre Aufgabe als Webentwickler ist es, Tools zu unterstützen und zu entwickeln, mit denen Menschen und Agenten wichtige Aufgaben effizient erledigen können. Tools sind jedoch nur ein Teil der Agent-Infrastruktur.

Infrastruktur für KI-Agenten

Menschen arbeiten mit KI-Agents zusammen. Jeder Teil sendet und empfängt Informationen vom Modell.
Ein Mensch arbeitet mit einem Agenten, der ein Modell, Regeln, Speicher und Tools enthält.

Ein Agent ist eine in sich geschlossene Einheit mit mehreren verbundenen Teilen:

  • Modell: Large Language Models (LLMs) sind die Grundlage für einen KI-Agenten. Sie ermöglichen es, Schlussfolgerungen zu ziehen, bieten eine Wissensbasis und die Fähigkeit, Sprache zu verarbeiten und zu generieren.
  • Regeln: Verschiedene Einschränkungen, darunter eine Persona, Anweisungen und Ziele, helfen dem KI-Agenten, Aufgaben konsistent auszuführen.
  • Arbeitsspeicher: Kurzzeit- und Langzeitspeicher unterstützen einen Agenten dabei, den Kontext zu verwalten, die Effizienz zu steigern und generell eine bessere Leistung für den Nutzer zu erbringen.
  • Tools: Ein Agent kann viele verschiedene Tools verwenden, darunter APIs, Funktionen, Datenbanken und sogar andere Agenten. WebMCP ist beispielsweise ein Vorschlag im Early Preview-Programm von Chrome, um strukturierte Interaktionen auf Ihrer Website zu unterstützen.

Wenn Agents Websites als Datenquellen behandeln oder direkt mit Seiten interagieren, können sie dies visuell oder semantisch tun:

  • Visuelle Interaktion: Der Agent erstellt einen Schnappschuss der gerenderten Webseite. Dabei wird ein Vision-Modell verwendet, um den Inhalt zu lesen und interaktive Elemente zu identifizieren.
  • Semantische Interaktion: Der Agent analysiert das DOM und liest Text direkt. Das ist besonders häufig bei Agents der Fall, die automatisierte Aufgaben ausführen.

Sowohl bei visuellen als auch bei semantischen Interaktionen profitieren Agenten von Websites, die gut gestaltet sind, eine intuitive Navigation bieten und eine klare Inhaltshierarchie haben.

Agents benötigen Zugriff auf Daten

Eine Möglichkeit, KI-Agenten zu definieren, ist ihre Beziehung zu Daten. Sind der Inhaber des Agents und der Daten identisch oder unterschiedlich? Diese Auswahl bestimmt, welche Authentifizierungsebenen erforderlich sind und wie schwierig es ist, die Aufgabe zu erledigen.

Zero-Party-Agent

Ein Zero-Party-Agent ist ein browser- oder betriebssystembasierter Agent, der in einem lokalen Kontext mit lokalen Daten agiert. Da Browser und Betriebssysteme benutzerdefinierte Nutzereinstellungen speichern, die als personenidentifizierbare Informationen (PII) betrachtet werden könnten, kann ein Zero-Party-Agent Vorgänge verhindern, bei denen diese Daten an andere Parteien weitergegeben werden.

Erstanbieter-Agent

Bei einem selbst erhobenen Agent gehören das Tool und die Informationen derselben Partei. Entwickler können also Tools besitzen und unterstützen sowie den Zugriff auf Informationen und die Konfiguration verwalten.

Nehmen wir an, Sie planen einen Urlaub in Toronto und möchten eine Liste mit Sehenswürdigkeiten erstellen. Ein von Google Maps bereitgestellter KI-Agent kann anhand einer Reihe von Kriterien und Daten eine Liste mit interessanten Orten für Sie erstellen und jedes Element auf der Karte markieren. Dieser könnte als selbst erhobener Agent betrachtet werden, da er von Google bereitgestellt wird. Google ist auch Inhaber der Kartendaten und aller anderen persönlichen Einstellungen, die von einem angemeldeten Nutzer gespeichert werden.

Drittanbieter-Agent

Ein Drittanbieter-Agent wird von einem externen Entwickler oder einer externen Organisation erstellt und bietet Funktionen und Daten aus externen Diensten. Möglicherweise möchten Sie, dass ein Drittanbieterkalender eine ereignisbasierte Funktion auf Ihrer Website unterstützt. Sie können diesen Agents Tools wie WebMCP anbieten oder sie in Ihre Workflows einbinden, sofern sie Ihre Datenschutzprüfung bestehen.

Ein Drittanbieter-Agent könnte dieselbe Zuordnungsaufgabe ausführen, wenn er als Erweiterung erstellt wird.

Entwickler können einen Agenten erstellen, der auf bestimmte Quellen angewiesen ist, um Listen zu erstellen, z. B. die besten Restaurants aus lokalen Zeitungen. Dieser Kundenservicemitarbeiter benötigt Lesezugriff auf die Websites der lokalen Zeitungen sowie Lese- und Schreibzugriff auf ein Tool zur Listenerstellung, sei es Google Maps oder ein alternativer Dienst. Dafür sind mehrere Ebenen von Einwilligungen und Berechtigungen sowie spezielle Tools für die Interaktion mit Websites erforderlich, z. B. ein Playwright-Tool.

Wahrscheinlich ist Ihre Website oder Webanwendung ein Drittanbieter von Informationen für einen Agent. In diesem Fall sollten Sie eine Berechtigungsstruktur anbieten, die es Agenten und Menschen ermöglicht, Aufgaben mit Ihnen zu erledigen.

Fazit

Nachdem Sie nun wissen, wie KI-Agenten funktionieren, können Sie entscheiden, wie Ihre Website sie am besten unterstützen kann.

Wir werden diese Reihe weiterhin mit umsetzbaren Best Practices aktualisieren, um die Interaktionen Ihrer Website und Webanwendung mit Agents zu unterstützen.