게시일: 2025년 2월 25일
웹 개발자는 크롤러 및 기타 봇을 포함하여 인간 및 비인간 잠재고객을 위한 웹사이트를 빌드하고 최적화해 왔습니다. AI 에이전트는 최적화의 이점을 누리는 최신 웹 사용자입니다.
기본적으로 에이전트는 입력을 수신하고 해석한 다음 사용자 (인간 또는 다른 에이전트)를 대신하여 작업을 계획하고 실행하는 시스템입니다. 에이전트에는 여러 구성요소가 있으며, 여기에는 모델, API 또는 기타 도구를 포함할 수 있습니다.
에이전트를 정의하는 여러 가지 특성이 있습니다. 웹 개발 컨텍스트에서는 다음을 고려해야 합니다.
- 자율: 에이전트는 직접적인 인간의 개입 없이 작동할 수 있습니다.
- 상호작용: 에이전트는 다른 에이전트 및 인간과 대화할 수 있습니다.
- 반응형: 에이전트는 환경을 인식하고 변경사항에 응답합니다.
- 능동적: 에이전트는 특정 목표를 달성하기 위해 주도적으로 행동할 수 있습니다.
예를 들어 Example Bookshop은 온라인 서점입니다. 사용자는 대규모 언어 모델 (LLM)과 상호작용하여 좋아하는 책과 기타 관심분야를 기반으로 새 책에 대한 추천을 수집할 수 있습니다. 에이전트는 사용자를 추천 도서의 페이지로 이동시키고 결제 절차를 시작할 수 있습니다. 도서의 재고가 없는 경우 에이전트는 사용자를 다른 온라인 서점에서 해당 추천 도서를 구매하도록 안내할 수 있습니다.
에이전트는 웹에서 비교적 새로운 사용자이므로 권장사항을 채택하기 전에 시간이 걸립니다. 하지만 에이전트에 도움이 되는 많은 권장사항은 실제로 모든 사용자, 특히 접근성 웹사이트를 빌드하는 데 도움이 됩니다.
이 문서에서는 에이전트가 웹 사용자로 작동하는 방식과 에이전트를 염두에 두고 웹사이트를 빌드해야 하는 이유를 검토합니다.
에이전트가 사용자로 작동하는 방식
AI 및 웹사이트에 관한 대부분의 논의는 LLM의 학습 데이터를 스크레이핑하는 데 사용되는 크롤러에 관한 것입니다. 학습을 위해 스크레이핑된 데이터는 사이트가 크롤러에 압도되지 않도록 하는 데 도움이 되는 Common Crawl과 같은 공개 데이터 세트에 보관되는 경우가 많습니다. 하지만 학습은 AI 시스템을 접하게 되는 이유 중 하나일 뿐입니다.
AI 시스템은 인간 또는 에이전트의 특정 사용자 요청에 따라 스크레이핑할 특정 페이지를 타겟팅할 수 있습니다. NotebookLM
에이전트는 사용자의 요청에 답변하기 위해 유사한 패턴을 따르고 사용자를 대신하여 페이지를 크롤링하지만 흐름이 덜 선형적일 수 있습니다.
에이전트는 오랫동안 자동화 작업 및 정보 수집에 사용되었지만 이제 링크와 버튼을 클릭하고, 필드를 채우고, 페이지를 스크롤하여 사용자를 대신하여 워크플로를 완료할 수 있습니다. 문의 양식 작성과 같은 작은 작업일 수도 있고 가족을 위한 항공편 예약과 같은 더 복잡한 작업일 수도 있습니다.
이러한 새로운 유형의 에이전트는 인간의 동반자 역할을 하므로 동의를 이해하는 것이 가장 중요한 기술입니다. 에이전트는 구매 단계 또는 민감한 정보가 포함된 양식 제출과 같은 중요한 시점에 확인을 요청해야 합니다.
동반자로서의 에이전트
에이전트는 웹사이트 또는 웹 애플리케이션에서 복잡한 작업 완료를 지원하여 인간 사용자의 동반자 또는 대리인이 될 수 있습니다. 대략적으로 에이전트의 프로세스는 항상 동일합니다.
- 쿼리를 수신합니다.
- 쿼리를 처리하고 해결 방법을 계획합니다.
- 계획을 실행합니다.
- 메모리에 학습한 내용을 저장합니다.
에이전트는 여러 출처에서 작업을 지원하는 데 가장 적합합니다. 도서를 구매하는 경우 에이전트는 출처에서 작업을 완료하는 동시에 다른 유사한 출처를 탐색할 수 있습니다. 사이트에서 에이전트가 작업을 완료하는 것을 더 잘 지원할수록 에이전트가 출처에서 작업을 완료할 가능성이 높아집니다.
웹 개발자로서의 역할은 인간과 에이전트가 중요한 작업을 효율적으로 완료할 수 있도록 지원하고 도구를 빌드하는 것입니다. 하지만 도구는 에이전트 인프라의 한 부분일 뿐입니다.
에이전트 인프라
에이전트는 연결된 여러 부분이 있는 포함된 단위입니다.
- 모델: 대규모 언어 모델 (LLM)은 AI 에이전트의 기반입니다. 이러한 모델은 추론, 지식 기반, 언어 처리 및 생성 기능을 제공합니다.
- 규칙: 페르소나, 안내, 목표를 포함한 다양한 제약 조건은 에이전트가 작업을 일관되게 수행하는 데 도움이 됩니다.
- 메모리: 단기 메모리와 장기 메모리는 에이전트가 컨텍스트를 관리하고, 효율성을 높이고, 일반적으로 사용자를 위해 더 나은 성능을 발휘하도록 지원합니다.
- 도구: 에이전트가 사용할 수 있는 다양한 도구가 있습니다. API, 함수, 데이터베이스, 심지어 다른 에이전트도 포함됩니다. 예를 들어, WebMCP는 Chrome의 초기 미리보기 프로그램에서 웹사이트의 구조화된 상호작용을 지원하기 위한 제안입니다.
에이전트가 웹사이트를 데이터 소스로 취급하거나 페이지와 직접 상호작용할 때 시각적 또는 의미적으로 상호작용할 수 있습니다.
- 시각적 상호작용: 에이전트는 렌더링된 웹페이지의 스냅샷을 찍습니다. 비전 모델을 사용하여 콘텐츠를 읽고 대화형 요소를 식별합니다.
- 의미적 상호작용: 에이전트는 DOM을 분석하고 텍스트를 직접 읽습니다. 이는 자동화된 작업을 실행하는 에이전트에서 특히 일반적입니다.
시각적 상호작용과 의미적 상호작용 모두에서 에이전트는 잘 설계되고, 탐색하기 쉽고, 콘텐츠 계층 구조가 명확한 사이트의 이점을 누립니다.
에이전트에는 데이터 액세스 권한이 필요함
에이전트를 정의하는 한 가지 방법은 데이터와의 관계를 정의하는 것입니다. 에이전트와 데이터의 소유자가 동일한가요, 아니면 다른가요? 이 선택에 따라 필요한 인증 레이어와 작업을 완료하는 데 얼마나 어려운지가 결정됩니다.
제로 파티 에이전트
제로 파티 에이전트는 로컬 데이터를 사용하여 로컬 컨텍스트에서 작동하는 브라우저 기반 에이전트입니다. 브라우저는 개인 식별 정보 (PII)로 간주될 수 있는 맞춤 사용자 환경설정을 저장하므로 제로 파티 에이전트는 이 데이터를 다른 당사자와 공유하는 작업을 방지할 수 있습니다.
퍼스트 파티 에이전트
퍼스트 파티 에이전트는 도구와 정보가 동일한 당사자가 소유하는 경우이므로 개발자는 도구를 소유하고 지원하며 정보 및 구성에 대한 액세스를 관리할 수 있습니다.
예를 들어 토론토로 휴가를 계획 중인 사용자가 방문할 장소 목록을 빌드하려고 한다고 가정해 보겠습니다. Google 지도에서 제공하는 에이전트는 일련의 기준과 데이터를 가져와 사용자를 대신하여 관심 장소 목록을 생성하고 지도에서 각 항목을 표시할 수 있습니다. 이는 에이전트가 지도 데이터와 로그인한 사용자가 저장한 기타 개인 환경설정을 소유한 Google에서 제공하므로 퍼스트 파티 에이전트로 간주될 수 있습니다.
서드 파티 에이전트
서드 파티 에이전트는 외부 개발자 또는 조직에서 만들고 외부 서비스의 기능과 데이터를 제공합니다. 예를 들어 웹사이트에서 이벤트 기반 기능을 지원하기 위해 서드 파티 캘린더 제공업체를 원할 수 있습니다. WebMCP와 같은 도구를 이러한 에이전트에 제공하거나 에이전트를 워크플로에 통합할 수 있습니다 (개인 정보 보호 검토를 통과한다고 가정)
서드 파티 에이전트는 확장 프로그램으로 빌드될 때 동일한 매핑 작업을 완료할 수 있습니다.
개발자는 특정 소스를 사용하여 목록을 만드는 에이전트를 빌드할 수 있습니다(예: 지역 신문에서 최고의 음식점 캡처). 이 에이전트에는 Google 지도 또는 대체 서비스와 같은 목록 생성 도구에 대한 읽기 및 쓰기 액세스 권한 외에도 지역 신문 사이트에 대한 읽기 액세스 권한이 필요합니다. 이를 위해서는 여러 계층의 동의 및 권한과 사이트와 상호작용하기 위한 특정 도구 (예: Playwright 도구)가 필요합니다.
웹사이트 또는 웹 애플리케이션이 에이전트의 서드 파티 정보 제공업체일 수 있습니다. 이 경우 에이전트와 인간이 함께 작업을 완료할 수 있는 권한 구조를 제공하는 것이 좋습니다.
요약
이제 에이전트가 작동하는 방식을 이해했으므로 웹사이트에서 에이전트를 가장 잘 지원하는 방법을 결정할 수 있습니다.
- WebMCP에 관해 읽고 초기 미리보기 프로그램에 참여하세요.
- 접근성 웹사이트를 빌드하는 방법을 알아보세요.
- Learn AI 과정을 수강하여 사이트에 AI 시스템을 추가하는 방법을 알아보세요.
Google은 에이전트와의 웹사이트 및 웹 애플리케이션 상호작용을 지원하기 위한 실행 가능한 권장사항으로 이 시리즈를 계속 업데이트할 예정입니다.