เว็บไซต์ของคุณมีผู้เข้าชมประเภทใหม่ ผู้ใช้ที่เป็นมนุษย์บางราย กำลังเปลี่ยนจากการไปยังส่วนต่างๆ ด้วยตนเองเป็นการมอบหมายเส้นทางที่มุ่งเน้นเป้าหมายให้กับเอเจนต์ AI ระบบอัตโนมัติเหล่านั้นสามารถตีความข้อมูล วางแผน และดำเนินการ ในนามของผู้ใช้
อย่างไรก็ตาม เว็บไซต์จำนวนมากของเราออกแบบมาให้สวยงามสำหรับมนุษย์ โดยมีสถานะการวางเมาส์ที่ซับซ้อน เลย์เอาต์ที่เปลี่ยนไป และการเคลื่อนไหวที่ลื่นไหล ซึ่งตัวแทนจะใช้งานไม่ได้
ตัวแทนจะดูเว็บไซต์ของคุณอย่างไร
ตัวแทนจะไม่ดูเว็บไซต์ของคุณบนจอภาพ โดยทำงานบนการแสดงเว็บไซต์ที่เครื่องอ่านได้ คุณภาพของการแสดงข้อมูลนี้จะเป็นตัวกำหนดประสิทธิภาพ
ตัวแทนสามารถดูเว็บไซต์ของคุณได้ 3 วิธีหลักๆ ได้แก่ ภาพหน้าจอ, HTML ดิบ และAccessibility Tree
ภาพหน้าจอ
เอเจนต์จะถ่ายภาพหน้าเว็บที่แสดงผลและใช้โมเดลวิชันเพื่อระบุองค์ประกอบ จากภาพหน้าจอ เจ้าหน้าที่สามารถ รับรู้ว่าแถบค้นหาที่ด้านขวาบนเป็นการค้นหาทั่วโลก ขณะที่ช่องตรงกลางน่าจะเป็นช่องแบบฟอร์ม สัญญาณภาพอาจมีประโยชน์ เนื่องจากเอเจนต์สามารถใช้สี ขนาด และความใกล้เคียงเพื่อกำหนดความสำคัญได้ ปุ่มลบขนาดใหญ่อาจทำให้ผู้ใช้ระมัดระวังมากกว่าลิงก์ "ความช่วยเหลือ" ขนาดเล็ก อย่างไรก็ตาม การวิเคราะห์ภาพหน้าจออาจช้าและมีค่าใช้จ่ายสูง (ในแง่ของโทเค็นที่ใช้) จึงเหมาะที่จะใช้เป็นข้อมูลสำรองมากกว่าเมื่อโครงสร้างมีความสับสน
HTML
เอเจนต์จะวิเคราะห์ DOM และอ่าน HTML โดยจะเข้าใจวิธีซ้อนองค์ประกอบ ลำดับชั้นเชิงตรรกะของแผนผัง DOM แอตทริบิวต์ เช่น รหัสและคลาสที่กำหนดโครงสร้าง และสตริงข้อมูลดิบ ที่สร้างกระดูกสันหลังด้านข้อมูลของเว็บไซต์ ซึ่งจะช่วยให้ตัวแทนเข้าใจความสัมพันธ์ระหว่างองค์ประกอบต่างๆ หากปุ่ม "ซื้อเลย" อยู่ในคอนเทนเนอร์ผลิตภัณฑ์ เอเจนต์จะถือว่าปุ่มนั้นเป็นของผลิตภัณฑ์ที่เจาะจงนั้น
แผนผังการช่วยเหลือพิเศษ
Accessibility Tree เป็น API ดั้งเดิมของเบราว์เซอร์ที่กลั่น DOM ให้เหลือสิ่งที่สำคัญที่สุด ได้แก่ บทบาท ชื่อ และสถานะขององค์ประกอบแบบอินเทอร์แอกทีฟ ซึ่งเป็น สรุปเชิงความหมายของหน้าเว็บที่เทคโนโลยีความช่วยเหลือพิเศษใช้ สำหรับ AI Agent นั้น ฟังก์ชันนี้จะทำหน้าที่เป็นแผนที่ที่มีรายละเอียดเสมือนจริงสูงซึ่งไม่สนใจ "สัญญาณรบกวน" ที่มองเห็นได้ของ CSS เพื่อมุ่งเน้นที่ยูทิลิตีที่แท้จริง การตีความแผนผังนี้จะช่วยให้ตัวแทนทราบถึง เจตนาในการทำงานของปุ่มเปิด/ปิด แถบเลื่อน และช่องป้อนข้อมูลทุกรายการ
รูปแบบการรักษาแบบผสม
การใช้ข้อมูลเพียงอย่างเดียวจะทำให้เกิดช่องว่างทางความหมาย เช่น ใน DOM
เอเจนต์อาจเห็น <div> โดยไม่ทราบว่าคุณได้กำหนดค่านี้เป็น
ปุ่มที่ใช้งานได้จริงด้วย CSS และ JavaScript ภาพหน้าจออาจช่วยให้ตัวแทนระบุตำแหน่งของปุ่มบนหน้าจอได้ แต่ก็ยังไม่ทราบปลายทางหรือการดำเนินการที่ปุ่มนั้นออกแบบมาเพื่อทริกเกอร์
ดังนั้น Agent สมัยใหม่จึงรวมรูปแบบต่างๆ เข้าด้วยกัน โดยจะใช้ DOM และ Accessibility Tree เพื่อรับรายการองค์ประกอบแบบอินเทอร์แอกทีฟที่มีโครงสร้างและเรียบร้อย จากนั้นจะตรวจสอบเพื่อเปรียบเทียบกับภาพที่แสดงผลเพื่อทำความเข้าใจเลย์เอาต์ การจัดกลุ่ม และสัญญาณภาพ
งานของเราคือการให้สัญญาณที่ชัดเจนในทุกช่องทางเหล่านี้
สร้างเว็บไซต์ที่เป็นมิตรกับเอเจนต์
โปรดพิจารณาดำเนินการต่อไปนี้เพื่อช่วยให้ตัวแทนไปยังส่วนต่างๆ ของเว็บไซต์ได้
- การดำเนินการที่จำเป็นทั้งหมดซึ่งดำเนินการโดยบุคคลหรือตัวแทนควรแสดงอย่างชัดเจน ในอินเทอร์เฟซ
- ตรวจสอบว่าเลย์เอาต์มีความเสถียร ตัวแทนที่ถ่ายภาพหน้าจออาจสับสนหากเลย์เอาต์ของเว็บไซต์มีการเปลี่ยนแปลงอยู่ตลอดเวลา เช่น เมื่อปุ่มเพิ่มลงในรถเข็นในหน้าผลิตภัณฑ์อยู่ในตำแหน่งที่แตกต่างกันสำหรับหมวดหมู่สินค้าแต่ละรายการ
- หลีกเลี่ยงองค์ประกอบ "ผี" หรือการซ้อนทับแบบโปร่งใสที่อาจซ่อนองค์ประกอบแบบอินเทอร์แอกทีฟ การวิเคราะห์ภาพที่เอเจนต์ดำเนินการอาจทิ้งโหนดที่ครอบคลุม แม้ว่าโหนดจะปรากฏโปร่งใสก็ตาม
- ออกแบบองค์ประกอบที่นำไปปฏิบัติได้ด้วย HTML เชิงความหมาย ใช้แท็ก
<button>และ<a>แทนองค์ประกอบ<div>และ<span>ที่แก้ไขแล้ว เอเจนต์ จะถือว่าองค์ประกอบเหล่านี้เป็นแบบอินเทอร์แอกทีฟ- หากใช้ HTML เชิงความหมายไม่ได้ ให้ระบุองค์ประกอบที่เหมาะสม
roleและtabindexเสมอ เช่น<div role="button">
- หากใช้ HTML เชิงความหมายไม่ได้ ให้ระบุองค์ประกอบที่เหมาะสม
- ตั้งค่า
cursor: pointerใน CSS ซึ่งเป็นสัญญาณที่ชัดเจนว่าดำเนินการได้ - เพิ่มแอตทริบิวต์
forในแท็ก<label>เพื่อลิงก์กับอินพุต ซึ่งจะช่วยให้ AI Agent เข้าใจวัตถุประสงค์ของฟิลด์โดยการระบุข้อความป้ายกำกับที่แนบมากับสตริงการดำเนินการโดยตรง - ตรวจสอบว่าองค์ประกอบแบบอินเทอร์แอกทีฟที่จำเป็นต่อเส้นทางของผู้ใช้มีพื้นที่ที่มองเห็นได้ขนาดใหญ่กว่า 8 ตารางพิกเซล เพื่อไม่ให้ระบบกรองออกโดยการวิเคราะห์ภาพ
ขั้นตอนถัดไป
ทุกสิ่งที่เราแนะนำเพื่อให้เว็บไซต์ "พร้อมสำหรับตัวแทน" ยังช่วยให้เว็บไซต์ดีขึ้นสำหรับมนุษย์ด้วย
การทําให้เว็บไซต์เป็นมิตรกับ AI Agent เป็นแรงจูงใจในการกลับมามุ่งมั่นในหลักการพื้นฐานของ การสร้างเว็บไซต์ที่มีโครงสร้างดี เข้าถึงได้ และมีความหมาย
- อ่านเกี่ยวกับ WebMCP ซึ่งเป็นมาตรฐานเว็บที่เสนอเพื่อช่วยให้เว็บไซต์โต้ตอบกับ Agent และลงชื่อสมัครใช้โปรแกรมตัวอย่างเวอร์ชันทดลองใช้เพื่อเริ่มทดลอง
- ตรวจสอบโครงสร้าง A11y: ใช้เครื่องมือที่มีอยู่เพื่อ ตรวจสอบว่าลำดับชั้นของเว็บไซต์สามารถอ่านได้ด้วยเครื่องและมีความเสถียร