Введение в работу с агентами

Опубликовано: 25 февраля 2025 г.

Александра Клеппер
Alexandra Klepper
Каспер Куликовский
Kasper Kulikowski

Веб-разработчики создают и оптимизируют веб-сайты для человеческой и нечеловеческой аудитории, включая поисковых роботов и других ботов. Искусственный интеллект — это новейший веб-пользователь, который получает выгоду от вашей оптимизации.

По своей сути, агент — это система, которая получает входные данные, интерпретирует их, а затем планирует и выполняет действия от имени пользователя (будь то человек или другой агент). Агент состоит из множества компонентов , которые могут включать модели, API или другие инструменты.

Агенты обладают рядом характеристик . В контексте веб-разработки следует учитывать следующее:

  • Автономность : Агенты могут действовать без прямого вмешательства человека.
  • Интерактивность : Агенты могут общаться с другими агентами и людьми.
  • Реактивный: Агент воспринимает окружающую среду и реагирует на изменения.
  • Проактивность : Агенты могут проявлять инициативу для достижения конкретных целей.

Например, Example Bookshop — это онлайн-книжный магазин. Пользователь может получить рекомендации по новой книге, основываясь на своих любимых книгах и других интересах, взаимодействуя с большой языковой моделью (LLM). Агент может перенаправить пользователя на страницу рекомендованной книги и начать процесс оформления заказа. Если книга отсутствует на складе, агент может перенаправить пользователя в другой онлайн-книжный магазин, чтобы тот приобрел рекомендованную книгу.

Поскольку агенты — относительно новый пользователь интернета, у вас есть некоторое время, прежде чем вам понадобится внедрять лучшие практики. Однако многие из лучших практик, помогающих агентам, на самом деле полезны для всех пользователей, особенно создание доступного веб-сайта .

В этом документе мы рассмотрим, как агенты взаимодействуют с пользователями веб-сайта и почему вам следует учитывать потребности агентов при создании своего сайта.

Как агенты действуют в качестве пользователей

Большая часть дискуссий об ИИ и веб-сайтах посвящена поисковым роботам, используемым для сбора обучающих данных для программ обучения линейного программирования. Собранные для обучения данные часто хранятся в открытых базах данных, таких как Common Crawl , что помогает предотвратить перегрузку сайтов поисковыми роботами. Однако обучение — это лишь одна из причин, по которой вы можете столкнуться с системами ИИ.

Системы искусственного интеллекта могут выбирать конкретные страницы для сбора данных на основе запроса конкретного пользователя (будь то человек или агент). Например, пользователь может предоставить NotebookLM исходные данные, и система соберет контент, чтобы лучше помочь пользователю в решении связанных задач, таких как составление резюме или агрегирование данных.

Агенты следуют схожим схемам и сканируют страницы от имени пользователя, чтобы ответить на его запрос, но этот процесс может быть менее линейным.

Хотя агенты уже давно используются для автоматизации задач и сбора информации, теперь они могут нажимать на ссылки и кнопки, заполнять поля и прокручивать страницы, выполняя рабочие процессы от имени пользователей. Это могут быть как небольшие задачи, такие как заполнение контактных форм, так и более сложные, например, бронирование авиабилетов для вашей семьи.

Понимание принципа согласия является важнейшим навыком для этих новых типов агентов, поскольку они выступают в роли компаньонов для людей. Агенты должны запрашивать подтверждение в критически важных моментах, таких как этап покупки или заполнение формы с конфиденциальной информацией.

Агенты как компаньоны

Агенты могут выступать в роли помощников или даже заменителей пользователей, помогая им в выполнении сложных задач на вашем веб-сайте или в веб-приложении. В целом, процесс работы агента всегда одинаков:

  1. Получен запрос.
  2. Проанализируйте и спланируйте, как ответить на запрос.
  3. Выполните план.
  4. Запомните все усвоенные уроки.

Агенты лучше всего подходят для поддержки задач, выполняемых на нескольких платформах . В случае покупки книг агент может выполнять задачу на вашей платформе, одновременно взаимодействуя с другими аналогичными платформами. Чем лучше ваш сайт поддерживает агента в выполнении задачи, тем выше вероятность того, что агент выполнит ее на вашей платформе.

Ваша задача как веб-разработчика — поддерживать и создавать инструменты, которые помогают людям и агентам эффективно выполнять важные задачи. Но инструменты — это лишь одна составляющая инфраструктуры агентов.

Инфраструктура агентов

Люди сотрудничают с агентами. Каждый элемент отправляет и возвращает информацию модели.
Человек взаимодействует с агентом, который включает в себя модель, правила, память и инструменты.

Агент — это замкнутая единица, состоящая из множества соединенных между собой частей:

  • Модель : Большие языковые модели (БЛМ) являются основой для агента искусственного интеллекта. Они обеспечивают рассуждения, базу знаний, а также способность обрабатывать и генерировать язык.
  • Правила : Различные ограничения, включая личность, инструкции и цели, помогают агенту последовательно выполнять задачи.
  • Память : Кратковременная и долговременная память помогают агенту управлять контекстом, повышать эффективность и в целом лучше выполнять свои задачи для пользователя.
  • Инструменты : Агент может использовать множество различных инструментов, включая API, функции, базы данных и даже другие агенты. Например, WebMCP — это предложение в рамках программы раннего предварительного просмотра Chrome, предназначенное для поддержки структурированного взаимодействия на вашем веб-сайте.

Когда агенты рассматривают веб-сайты как источники данных или взаимодействуют непосредственно со страницами, они могут делать это визуально или семантически:

  • Визуальное взаимодействие : Агент делает снимок отображаемой веб-страницы. Он использует модель компьютерного зрения для чтения содержимого и идентификации интерактивных элементов.
  • Семантическое взаимодействие : Агент анализирует DOM и считывает текст напрямую. Это особенно распространено для агентов, выполняющих автоматизированные задачи.

Как для визуального, так и для семантического взаимодействия, агенты получают выгоду от сайтов, которые хорошо спроектированы, интуитивно понятны в навигации и имеют четкую иерархию контента.

Агентам необходим доступ к данным.

Один из способов определения агентов — это их связь с данными. Являются ли владелец агента и владелец данных одним и тем же лицом или разными? Этот выбор определяет, какие уровни аутентификации необходимы и насколько сложно будет выполнить эту задачу.

Агент нулевой стороны

Агент нулевой стороны — это браузерный или операционный агент, который действует в локальном контексте, используя локальные данные. Поскольку браузеры и операционные системы хранят пользовательские предпочтения, которые могут считаться персональными данными, агент нулевой стороны может предотвратить операции, которые передают эти данные другим сторонам.

Агент от первого лица

Агент первой стороны — это когда инструмент и информация принадлежат одной и той же стороне, поэтому разработчики могут владеть инструментами, поддерживать их, управлять доступом к информации и настройками.

Например, предположим, вы пользователь, планирующий отпуск в Торонто, и хотите составить список мест для посещения. Агент, предоставляемый Google Maps, может использовать набор критериев и данных для создания списка достопримечательностей от вашего имени, отмечая каждый объект на карте. Это можно считать агентом от первого лица, поскольку агент предоставляется Google, которому также принадлежат данные карты и любые другие личные предпочтения, сохраненные авторизованным пользователем.

Агент третьей стороны

Сторонний агент создается внешним разработчиком или организацией и предоставляет функции и данные из внешних сервисов. Например, вам может понадобиться сторонний поставщик календаря для поддержки функции отслеживания событий на вашем веб-сайте. Вы можете предложить этим агентам инструменты, такие как WebMCP, или интегрировать агентов в ваши рабочие процессы (при условии, что они пройдут проверку на конфиденциальность).

Вполне возможно, что ту же задачу сопоставления данных мог бы выполнить сторонний агент, если бы он был разработан как расширение.

Разработчики могли бы создать агента, который использует определенные источники для составления списков, например, собирая информацию о лучших ресторанах из местных газет. Этому агенту потребуется доступ на чтение к сайтам местных газет, а также доступ на чтение и запись к инструменту для создания списков, будь то Google Maps или другой аналогичный сервис. Это требует нескольких уровней согласия и разрешений, а также специальных инструментов для взаимодействия с сайтами (например, инструмента Playwright ).

Вполне вероятно, что ваш веб-сайт или веб-приложение может предоставлять информацию сторонней организации агенту. В этом случае вам может потребоваться разработать структуру разрешений, которая позволит агентам и людям выполнять задачи совместно с вами.

Основные выводы

Теперь, когда вы понимаете, как работают агенты, вы можете решить, как ваш веб-сайт может наилучшим образом их поддерживать.

  • Узнайте больше о WebMCP и примите участие в программе предварительного ознакомления.
  • Узнайте, как создать доступный веб-сайт .
  • Пройдите курс «Изучение ИИ» , чтобы понять, как можно интегрировать системы искусственного интеллекта на ваши сайты.

Мы продолжим обновлять эту серию, публикуя практические рекомендации по улучшению взаимодействия вашего веб-сайта и веб-приложения с агентами.