ข้อมูลเบื้องต้นเกี่ยวกับตัวแทน

เผยแพร่: 25 กุมภาพันธ์ 2025

นักพัฒนาเว็บได้สร้างและเพิ่มประสิทธิภาพเว็บไซต์สำหรับกลุ่มเป้าหมายที่เป็นมนุษย์และไม่ใช่มนุษย์ ซึ่งรวมถึง Crawler และบ็อตอื่นๆ เอเจนต์ AI คือ ผู้ใช้เว็บรายล่าสุดที่ได้รับประโยชน์จากการเพิ่มประสิทธิภาพของคุณ

โดยพื้นฐานแล้ว Agent คือระบบที่รับอินพุต ตีความ แล้ววางแผนและดำเนินการในนามของผู้ใช้ (ไม่ว่าจะเป็นมนุษย์หรือ Agent อื่น) เอเจนต์มีคอมโพเนนต์หลายอย่าง ซึ่งอาจรวมถึงโมเดล, API หรือเครื่องมืออื่นๆ

ลักษณะที่กำหนดเอเจนต์มีหลายประการ ในบริบทของการพัฒนาเว็บ คุณควรพิจารณาสิ่งต่อไปนี้

  • ทำงานอัตโนมัติ: เอเจนต์สามารถทำงานได้โดยไม่ต้องมีมนุษย์คอยควบคุมโดยตรง
  • โต้ตอบได้: ตัวแทนสามารถสนทนากับตัวแทนอื่นๆ และมนุษย์ได้
  • เชิงโต้ตอบ: เอเจนต์รับรู้สภาพแวดล้อมและตอบสนองต่อการเปลี่ยนแปลง
  • เชิงรุก: ตัวแทนสามารถริเริ่มเพื่อบรรลุเป้าหมายที่เฉพาะเจาะจงได้

เช่น Example Bookshop เป็นร้านหนังสือออนไลน์ ผู้ใช้สามารถรวบรวมคำแนะนำสำหรับหนังสือเล่มใหม่ตามหนังสือที่ชอบและความสนใจอื่นๆ ได้โดยการโต้ตอบกับโมเดลภาษาขนาดใหญ่ (LLM) ตัวแทนสามารถนำผู้ใช้ไปยังหน้าหนังสือที่แนะนำและเริ่มกระบวนการชำระเงินได้ หากหนังสือหมด สต็อก เจ้าหน้าที่สามารถนำผู้ใช้ไปซื้อหนังสือที่แนะนำนั้นในร้านหนังสือออนไลน์ร้านอื่นได้

เนื่องจากเอเจนต์เป็นผู้ใช้ใหม่บนเว็บ คุณจึงมีเวลาสักระยะก่อนที่จะต้อง นำแนวทางปฏิบัติแนะนำไปใช้ อย่างไรก็ตาม แนวทางปฏิบัติแนะนำหลายข้อที่ช่วยตัวแทน กลับช่วยผู้ใช้ทั้งหมด โดยเฉพาะ การสร้างเว็บไซต์ที่เข้าถึงได้

ในเอกสารนี้ เราจะทบทวนวิธีที่เอเจนต์ทํางานในฐานะผู้ใช้เว็บและเหตุผลที่คุณควร พิจารณาสร้างเว็บไซต์โดยคํานึงถึงเอเจนต์

วิธีที่ตัวแทนดำเนินการในฐานะผู้ใช้

การพูดคุยเกี่ยวกับ AI และเว็บไซต์ส่วนใหญ่เป็นการพูดคุยเกี่ยวกับ Crawler ที่ใช้ในการคัดลอกข้อมูลการฝึกสำหรับ LLM โดยมักจะเก็บข้อมูลที่คัดลอกมาเพื่อการฝึกในชุดข้อมูลแบบเปิด เช่น Common Crawl ซึ่งจะช่วยป้องกันไม่ให้ Crawler ทำให้เว็บไซต์ทำงานหนักเกินไป อย่างไรก็ตาม การฝึกเป็นเพียงหนึ่งใน เหตุผลที่คุณจะพบระบบ AI

ระบบ AI สามารถกำหนดเป้าหมายไปยังหน้าเว็บที่เฉพาะเจาะจงเพื่อทำการคัดลอกข้อมูลตามคำขอของผู้ใช้ที่เฉพาะเจาะจง (ไม่ว่าจะเป็นมนุษย์หรือเอเจนต์) เช่น ผู้ใช้อาจระบุแหล่งที่มาให้ NotebookLM และระบบจะคัดลอกเนื้อหาเพื่อช่วยผู้ใช้ในงานที่เกี่ยวข้องได้ดียิ่งขึ้น เช่น การสรุปหรือการรวบรวมข้อมูล

เอเจนต์จะทำตามรูปแบบที่คล้ายกันและทำการ Crawl หน้าเว็บในนามของผู้ใช้เพื่อตอบคำขอของผู้ใช้ แต่โฟลวอาจไม่เป็นเส้นตรง

แม้ว่าเอเจนต์จะถูกใช้สำหรับงานอัตโนมัติและการรวบรวมข้อมูลมานานแล้ว แต่ตอนนี้เอเจนต์สามารถคลิกลิงก์และปุ่ม กรอกข้อมูลในช่อง และเลื่อนหน้าเว็บ เพื่อทำเวิร์กโฟลว์ให้เสร็จสมบูรณ์ในนามของผู้ใช้ได้แล้ว ซึ่งอาจเป็นงานเล็กๆ เช่น การกรอกแบบฟอร์มติดต่อ หรืออาจเป็นงานที่ซับซ้อนกว่า เช่น การจองเที่ยวบินให้ ครอบครัว

การทำความเข้าใจความยินยอมเป็นทักษะที่สำคัญที่สุดสำหรับเอเจนต์ประเภทใหม่เหล่านี้ เนื่องจากเอเจนต์เหล่านี้ทำหน้าที่เป็นเพื่อนร่วมงานของมนุษย์ ตัวแทนควรขอการยืนยันในจุดที่สำคัญ เช่น ขั้นตอนการซื้อหรือการส่งแบบฟอร์มที่มีข้อมูลที่ละเอียดอ่อน

เอเจนต์ในฐานะเพื่อนร่วมทาง

เอเจนต์สามารถเป็นเพื่อนหรือแม้แต่ตัวแทนของผู้ใช้ที่เป็นมนุษย์ โดยช่วยทำงานที่ซับซ้อนให้เสร็จสมบูรณ์บนเว็บไซต์หรือเว็บแอปพลิเคชันของคุณ ในระดับสูง กระบวนการของเอเจนต์จะเหมือนกันเสมอ ดังนี้

  1. รับการค้นหา
  2. ประมวลผลและวางแผนวิธีตอบคำถาม
  3. ดำเนินการตามแผน
  4. จดจำบทเรียนที่ได้รับ

Agent เหมาะที่สุดสำหรับการสนับสนุนงานในต้นทางหลายแห่ง ในกรณีของการเลือกซื้อ หนังสือ เอเจนต์อาจทำงานในต้นทางของคุณให้เสร็จสมบูรณ์ พร้อมทั้งไปยังต้นทางอื่นๆ ที่คล้ายกันด้วย ยิ่งเว็บไซต์ของคุณรองรับตัวแทนในการทำงานให้เสร็จสมบูรณ์ได้ดีเท่าใด ตัวแทนก็ยิ่งมีแนวโน้มที่จะทำงานให้เสร็จสมบูรณ์ด้วยต้นทางของคุณมากขึ้นเท่านั้น

หน้าที่ของคุณในฐานะนักพัฒนาเว็บคือการสนับสนุนและสร้างเครื่องมือที่จะช่วยให้มนุษย์และเอเจนต์ทำงานสำคัญๆ ให้เสร็จได้อย่างมีประสิทธิภาพ แต่เครื่องมือเป็นเพียงส่วนหนึ่งของ โครงสร้างพื้นฐานของเอเจนต์

โครงสร้างพื้นฐานของเอเจนต์

มนุษย์ทำงานร่วมกับเอเจนต์ แต่ละชิ้นจะส่งและรับข้อมูลไปยังโมเดล
มนุษย์ทำงานร่วมกับเอเจนต์ ซึ่งมีโมเดล กฎ หน่วยความจำ และเครื่องมือ

เอเจนต์คือหน่วยที่ประกอบด้วยชิ้นส่วนที่เชื่อมต่อกันหลายชิ้น ดังนี้

  • โมเดล: โมเดลภาษาขนาดใหญ่ (LLM) เป็นพื้นฐานสำหรับเอเจนต์ AI ซึ่งจะให้การให้เหตุผล ฐานความรู้ และความสามารถในการประมวลผล และสร้างภาษา
  • กฎ: ข้อจำกัดต่างๆ รวมถึงลักษณะตัวตน คำสั่ง และเป้าหมาย ช่วยให้เอเจนต์ทำงานได้อย่างสม่ำเสมอ
  • หน่วยความจำ: หน่วยความจำระยะสั้นและหน่วยความจำระยะยาวช่วยให้เอเจนต์จัดการบริบท เพิ่มประสิทธิภาพ และโดยทั่วไปทำงานได้ดีขึ้นสำหรับผู้ใช้
  • เครื่องมือ: มีเครื่องมือมากมายที่เอเจนต์สามารถใช้ได้ รวมถึง API ฟังก์ชัน ฐานข้อมูล และแม้แต่เอเจนต์อื่นๆ เช่น WebMCP เป็นข้อเสนอในโปรแกรมทดลองใช้รุ่นแรกของ Chrome เพื่อรองรับการโต้ตอบที่มีโครงสร้างในเว็บไซต์ของคุณ

เมื่อเอเจนต์ถือว่าเว็บไซต์เป็นแหล่งข้อมูลหรือโต้ตอบกับหน้าเว็บโดยตรง เอเจนต์จะดำเนินการดังกล่าวได้ด้วยภาพหรือความหมาย

  • การโต้ตอบด้วยภาพ: ตัวแทนจะถ่ายภาพหน้าเว็บที่แสดงผล โดยจะใช้โมเดลการมองเห็นเพื่ออ่านเนื้อหาและระบุองค์ประกอบแบบอินเทอร์แอกทีฟ
  • การโต้ตอบเชิงความหมาย: ตัวแทนจะวิเคราะห์ DOM และอ่านข้อความโดยตรง ซึ่งมักเกิดขึ้นกับเอเจนต์ที่ทำงานอัตโนมัติ

ทั้งการโต้ตอบด้วยภาพและการโต้ตอบเชิงความหมาย เอเจนต์จะได้รับประโยชน์จากเว็บไซต์ที่ออกแบบมาอย่างดี ใช้งานง่าย และมีลำดับชั้นของเนื้อหาที่ชัดเจน

เอเจนต์ต้องมีสิทธิ์เข้าถึงข้อมูล

วิธีหนึ่งในการกำหนด Agent คือการพิจารณาความสัมพันธ์กับข้อมูล เจ้าของเอเจนต์และข้อมูลเป็นคนเดียวกันหรือต่างกัน ตัวเลือกนี้จะกำหนดว่าต้องใช้การตรวจสอบสิทธิ์กี่ชั้นและงานจะทำได้ยากเพียงใด

ตัวแทนบุคคลที่หนึ่ง

เอเจนต์แบบ Zero-Party คือเอเจนต์ที่อิงตามเบราว์เซอร์หรือระบบปฏิบัติการซึ่งทํางานใน บริบทภายในโดยใช้ข้อมูลภายใน เนื่องจากเบราว์เซอร์และระบบปฏิบัติการจัดเก็บค่ากําหนดของผู้ใช้ที่กําหนดเองซึ่งอาจถือเป็นข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้ (PII) เอเจนต์บุคคลที่ศูนย์จึงสามารถป้องกันการดําเนินการที่แชร์ข้อมูลนี้กับบุคคลอื่นๆ ได้

ตัวแทนบุคคลที่หนึ่ง

เอเจนต์บุคคลที่หนึ่งคือเมื่อเครื่องมือและข้อมูลเป็นของบุคคลเดียวกัน เพื่อให้ผู้พัฒนาเป็นเจ้าของและสนับสนุนเครื่องมือ จัดการการเข้าถึงข้อมูลและการกำหนดค่า

ตัวอย่างเช่น สมมติว่าคุณเป็นผู้ใช้ที่กำลังวางแผนไปเที่ยวโตรอนโตและต้องการ สร้างรายการสถานที่ท่องเที่ยว เอเจนต์ที่ Google Maps จัดหาให้จะใช้ชุดเกณฑ์และข้อมูลเพื่อสร้างรายการจุดที่น่าสนใจในนามของคุณ โดยจะทำเครื่องหมายแต่ละรายการบนแผนที่ ซึ่งถือเป็นเอเจนต์บุคคลที่หนึ่งได้เนื่องจากเอเจนต์นี้มาจาก Google ซึ่งเป็นเจ้าของข้อมูลแผนที่และค่ากำหนดส่วนตัวอื่นๆ ที่ผู้ใช้ที่เข้าสู่ระบบจัดเก็บไว้

ตัวแทนบุคคลที่สาม

เอเจนต์ของบุคคลที่สามสร้างขึ้นโดยนักพัฒนาซอฟต์แวร์หรือองค์กรภายนอก และ มีฟังก์ชันและข้อมูลจากบริการภายนอก เช่น คุณอาจต้องการให้ผู้ให้บริการปฏิทินบุคคลที่สามรองรับฟีเจอร์ที่อิงตามกิจกรรมในเว็บไซต์ คุณสามารถเสนอเครื่องมือต่างๆ ให้แก่ตัวแทนเหล่านี้ เช่น WebMCP หรือผสานรวมตัวแทนเข้ากับเวิร์กโฟลว์ของคุณ (ในกรณีที่ตัวแทนผ่านการตรวจสอบความเป็นส่วนตัว)

เอเจนต์บุคคลที่สามอาจทำงานแมปเดียวกันให้เสร็จได้เมื่อสร้างเป็นส่วนขยาย

นักพัฒนาแอปสามารถสร้างเอเจนต์ที่อิงตามแหล่งข้อมูลที่เฉพาะเจาะจงเพื่อสร้างรายการได้ เช่น การรวบรวมร้านอาหารที่ดีที่สุดจากหนังสือพิมพ์ท้องถิ่น เอเจนต์นี้จะต้องมีสิทธิ์เข้าถึงแบบอ่านในเว็บไซต์หนังสือพิมพ์ท้องถิ่น นอกเหนือจากสิทธิ์เข้าถึงแบบอ่านและเขียนในเครื่องมือสร้างรายการ ไม่ว่าจะเป็น Google Maps หรือบริการทางเลือก ซึ่งต้องใช้ความยินยอมและสิทธิ์หลายชั้น รวมถึงเครื่องมือเฉพาะเพื่อโต้ตอบกับเว็บไซต์ (เช่น เครื่องมือ Playwright)

เว็บไซต์หรือเว็บแอปพลิเคชันของคุณอาจเป็นผู้ให้บริการข้อมูลแก่เอเจนต์ ในกรณีนี้ คุณอาจต้องเสนอโครงสร้างสิทธิ์ที่ช่วยให้เอเจนต์และมนุษย์ทำงานร่วมกับคุณได้

สรุปประเด็นสำคัญ

ตอนนี้คุณมีความเข้าใจเกี่ยวกับวิธีการทำงานของเอเจนต์แล้ว คุณจึงสามารถตัดสินใจได้ว่าเว็บไซต์จะสนับสนุนเอเจนต์ได้ดีที่สุดอย่างไร

เราจะอัปเดตชุดข้อมูลนี้ต่อไปพร้อมแนวทางปฏิบัติแนะนำที่นำไปใช้ได้จริงเพื่อสนับสนุนการโต้ตอบของเว็บไซต์และเว็บแอปพลิเคชันกับเอเจนต์