Dziękujemy za zainteresowanie konferencją Google I/O. Oglądanie treści na żądanie.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Wprowadzenie do agentów

Opublikowano: 25 lutego 2025 r.

Alexandra Klepper

Kasper Kulikowski

Rachel Lee Nabors

Deweloperzy stron internetowych tworzą i optymalizują witryny pod kątem odbiorców ludzkich i niebędących ludźmi, w tym robotów indeksujących i innych botów. Agenci AI to najnowszy typ użytkownika internetu, który korzysta z Twojej optymalizacji.

Agent to system, który otrzymuje dane wejściowe, interpretuje je, a następnie planuje i wykonuje działania w imieniu użytkownika (człowieka lub innego agenta). Agent ma wiele komponentów, które mogą obejmować modele, interfejsy API lub inne narzędzia.

Istnieje kilka cech, które definiują agentów. W kontekście tworzenia stron internetowych warto wziąć pod uwagę te kwestie:

Autonomiczne: agenty mogą działać bez bezpośredniej interwencji człowieka.
Interaktywne: agenci mogą rozmawiać z innymi agentami i ludźmi.
Reaktywny: agent postrzega swoje środowisko i reaguje na zmiany.
Proaktywni: agenci mogą podejmować inicjatywy, aby osiągać konkretne cele.

Na przykład Example Bookshop to księgarnia internetowa. Użytkownik może uzyskać rekomendacje dotyczące nowej książki na podstawie książek, które lubi, i innych zainteresowań, wchodząc w interakcję z dużym modelem językowym (LLM). Agent może przekierować użytkownika na stronę polecanej książki i rozpocząć proces płatności. Jeśli książka była niedostępna, agent mógł przekierować użytkownika do zakupu tej rekomendacji w innej księgarni internetowej.

Agenci są stosunkowo nowymi użytkownikami internetu, więc masz trochę czasu, zanim będziesz musiał(-a) zastosować sprawdzone metody. Wiele sprawdzonych metod, które pomagają agentom, w rzeczywistości pomaga wszystkim użytkownikom, zwłaszcza w tworzeniu witryny z ułatwieniami dostępu.

W tym dokumencie omawiamy, jak agenci działają jako użytkownicy internetu i dlaczego warto projektować witrynę z myślą o nich.

Jak agenci działają jako użytkownicy

Większość dyskusji na temat AI i witryn dotyczy robotów indeksujących używanych do pobierania danych treningowych dla dużych modeli językowych. Dane do trenowania są często przechowywane w otwartych zbiorach danych, takich jak Common Crawl, co pomaga zapobiegać przeciążeniu witryn przez roboty indeksujące. Trenowanie to jednak tylko jeden z powodów, dla których możesz spotkać się z systemami AI.

Systemy AI mogą kierować skanowanie na konkretne strony na podstawie prośby konkretnego użytkownika (człowieka lub agenta). Użytkownik może na przykład podać źródła NotebookLM, a system pobierze z nich treści, aby lepiej pomagać użytkownikowi w powiązanych zadaniach, takich jak podsumowywanie czy agregowanie danych.

Agenci postępują podobnie i indeksują strony w imieniu użytkownika, aby odpowiedzieć na jego prośbę, ale przepływ może być mniej liniowy.

Agenci od dawna są wykorzystywani do automatyzacji zadań i zbierania informacji, ale teraz mogą klikać linki i przyciski, wypełniać pola i przewijać strony, wykonując w ten sposób procesy w imieniu użytkowników. Mogą to być proste zadania, takie jak wypełnianie formularzy kontaktowych, lub bardziej złożone, np. rezerwowanie lotów dla rodziny.

Zrozumienie zgody użytkownika jest najważniejszą umiejętnością tych nowych typów agentów, ponieważ pełnią oni rolę towarzyszy ludzi. W kluczowych momentach, takich jak etap zakupu lub przesyłanie formularza z informacjami wrażliwymi, agenci powinni prosić o potwierdzenie.

Agenty jako towarzysze

Agenci mogą być towarzyszami, a nawet zastępować użytkowników, pomagając im w wykonywaniu złożonych zadań w Twojej witrynie lub aplikacji internetowej. Ogólnie proces agenta jest zawsze taki sam:

Otrzymywanie zapytania.
Przetwórz zapytanie i zaplanuj, jak na nie odpowiedzieć.
Wykonaj plan.
Zapamiętaj wszystkie wyciągnięte wnioski.

Agenci najlepiej sprawdzają się w obsłudze zadań z wielu źródeł. W przypadku wyszukiwania książek agent może wykonywać zadanie w Twoim regionie, a jednocześnie poruszać się po innych podobnych regionach. Im lepiej Twoja witryna wspiera agenta w wykonywaniu zadania, tym większe prawdopodobieństwo, że agent wykona je w Twojej domenie.

Twoim zadaniem jako programisty stron internetowych jest wspieranie i tworzenie narzędzi, które pomagają ludziom i agentom skutecznie wykonywać kluczowe zadania. Narzędzia to tylko jeden z elementów infrastruktury agenta.

Infrastruktura agenta

Ludzie współpracują z agentami. Każdy element wysyła informacje do modelu i je zwraca. — Człowiek pracuje z agentem, który zawiera model, reguły, pamięć i narzędzia.

Agent to samodzielna jednostka składająca się z kilku połączonych elementów:

Model: duże modele językowe (LLM) stanowią podstawę agenta AI. Zapewniają one rozumowanie, bazę wiedzy oraz możliwość przetwarzania i generowania języka.
Reguły: różne ograniczenia, w tym persona, instrukcje i cele, pomagają agentowi konsekwentnie wykonywać zadania.
Pamięć: pamięć krótkotrwała i długotrwała pomagają agentowi zarządzać kontekstem, zwiększać wydajność i ogólnie lepiej służyć użytkownikowi.
Narzędzia: agent może używać wielu różnych narzędzi, w tym interfejsów API, funkcji, baz danych, a nawet innych agentów. Na przykład WebMCP to propozycja w ramach programu wczesnego dostępu do Chrome, która ma na celu obsługę uporządkowanych interakcji w Twojej witrynie.

Gdy agenci traktują witryny jako źródła danych lub wchodzą w interakcje bezpośrednio ze stronami, mogą to robić wizualnie lub semantycznie:

Interakcja wizualna: agent robi zrzut wyrenderowanej strony internetowej. Wykorzystuje model wizyjny do odczytywania treści i identyfikowania elementów interaktywnych.
Interakcja semantyczna: agent analizuje DOM i bezpośrednio odczytuje tekst. Jest to szczególnie powszechne w przypadku agentów wykonujących zautomatyzowane zadania.

Zarówno w przypadku interakcji wizualnych, jak i semantycznych agenci korzystają z witryn, które są dobrze zaprojektowane, intuicyjne w nawigacji i mają przejrzystą hierarchię treści.

Agenci wymagają dostępu do danych

Jednym ze sposobów definiowania agentów jest określenie ich relacji z danymi. Czy właściciel agenta i danych jest ten sam czy inny? Ten wybór określa, jakie warstwy uwierzytelniania są potrzebne i jak trudne jest wykonanie zadania.

Agent danych własnych

Agent zerowej kategorii to agent działający w przeglądarce w kontekście lokalnym, który korzysta z danych lokalnych. Przeglądarki przechowują niestandardowe preferencje użytkownika, które mogą być uznawane za informacje umożliwiające identyfikację. Klient zerowej strony może zapobiegać operacjom, które udostępniają te dane innym podmiotom.

Agent własny

Agent własny to narzędzie i informacje należące do tej samej firmy. Deweloperzy mogą więc posiadać i obsługiwać narzędzia oraz zarządzać dostępem do informacji i konfiguracji.

Załóżmy na przykład, że planujesz wakacje w Toronto i chcesz utworzyć listę miejsc do odwiedzenia. Agent udostępniony przez Mapy Google może na podstawie zestawu kryteriów i danych wygenerować listę punktów zainteresowania w Twoim imieniu, oznaczając każdy element na mapie. Można go uznać za agenta własnego, ponieważ jest on udostępniany przez Google, która jest też właścicielem danych mapy i wszelkich innych preferencji osobistych przechowywanych przez zalogowanego użytkownika.

Agent zewnętrzny

Agent innej firmy jest tworzony przez zewnętrznego dewelopera lub organizację i oferuje funkcje oraz dane z usług zewnętrznych. Możesz na przykład chcieć, aby zewnętrzny dostawca kalendarza obsługiwał funkcję opartą na wydarzeniach w Twojej witrynie. Możesz zaoferować tym agentom narzędzia, takie jak WebMCP, lub zintegrować ich z procesami (zakładając, że przejdą Twoją weryfikację pod kątem prywatności).

Agent zewnętrzny mógłby wykonać to samo zadanie mapowania, gdyby był rozszerzeniem.

Programiści mogą tworzyć agentów, którzy korzystają z określonych źródeł do tworzenia list, np. najlepszych restauracji z lokalnych gazet. Ten agent musi mieć dostęp do odczytu witryn lokalnych gazet, a także dostęp do odczytu i zapisu w narzędziu do tworzenia list, np. w Mapach Google lub w innej usłudze. Wymaga to kilku warstw zgody i uprawnień, a także specjalnych narzędzi do interakcji ze stronami (np. narzędzia Playwright).

Prawdopodobnie Twoja witryna lub aplikacja internetowa może być dostawcą informacji dla agenta. W takim przypadku możesz zaproponować strukturę uprawnień, która umożliwi agentom i pracownikom wykonywanie zadań razem z Tobą.

Wnioski

Teraz, gdy wiesz już, jak działają agenci, możesz zdecydować, w jaki sposób Twoja witryna może najlepiej ich wspierać.

Dowiedz się więcej o WebMCP i weź udział w programie wczesnego dostępu.
Dowiedz się, jak utworzyć dostępną witrynę.
Zapoznaj się z kursem Learn AI, aby dowiedzieć się, jak dodawać systemy AI do swoich witryn.

Będziemy nadal aktualizować tę serię, dodając praktyczne sprawdzone metody, które pomogą Ci w interakcjach Twojej witryny i aplikacji internetowej z agentami.