ส่วนที่ 1: AI ฝั่งไคลเอ็นต์เพื่อต่อสู้กับเนื้อหาที่เป็นพิษบนโลกออนไลน์

Maud Nalpas
Maud Nalpas

เผยแพร่เมื่อวันที่ 13 พฤศจิกายน 2024

วาจาสร้างความเกลียดชัง การล่วงละเมิด และการละเมิดทางออนไลน์กลายเป็นปัญหาที่แพร่หลายบนโลกออนไลน์ ความคิดเห็นที่เป็นพิษจะปิดกั้นเสียงที่สำคัญและขับไล่ผู้ใช้และลูกค้า การตรวจหาเนื้อหาที่เป็นพิษจะปกป้องผู้ใช้และสร้างสภาพแวดล้อมออนไลน์ที่ปลอดภัยยิ่งขึ้น

ในซีรีส์ 2 ภาคนี้ เราจะสำรวจวิธีใช้ AI เพื่อตรวจหาและลดความรุนแรงที่ต้นตอ ซึ่งก็คือแป้นพิมพ์ของผู้ใช้

ในส่วนแรกนี้ เราจะพูดถึงกรณีการใช้งานและประโยชน์ของแนวทางนี้

ในส่วนที่ 2 เราจะแชร์การใช้งาน รวมถึงตัวอย่างโค้ดและเคล็ดลับ UX

เหตุผลที่ควรทำการตรวจหาเนื้อหาที่เป็นพิษฝั่งไคลเอ็นต์

การสาธิตการโพสต์ความคิดเห็น
ตัวอย่างการตรวจหาเนื้อหาที่เป็นพิษฝั่งไคลเอ็นต์: เมื่อผู้ใช้หยุดพิมพ์ความคิดเห็น การวิเคราะห์เนื้อหาที่เป็นพิษจะทำงานในเบราว์เซอร์และแสดงคำเตือนแบบเรียลไทม์ ดูเดโม

ประโยชน์

การตรวจหาเนื้อหาที่เป็นพิษฝั่งไคลเอ็นต์เป็นการป้องกันชั้นแรกที่มีประโยชน์และเป็นส่วนเสริมที่ยอดเยี่ยมในการตรวจสอบฝั่งเซิร์ฟเวอร์ การตรวจหาเนื้อหาที่เป็นพิษฝั่งไคลเอ็นต์มีประโยชน์หลายประการ ดังนี้

  • ตรวจหาเนื้อหาที่เป็นพิษตั้งแต่เนิ่นๆ การตรวจสอบฝั่งไคลเอ็นต์ช่วยให้คุณตรวจจับเนื้อหาที่เป็นพิษได้ตั้งแต่ต้นทางโดยไม่ต้องแตะเซิร์ฟเวอร์
  • เปิดใช้การตรวจสอบแบบเรียลไทม์ ใช้ความเร็วฝั่งไคลเอ็นต์เพื่อสร้างแอปพลิเคชันที่มีเวลาในการตอบสนองต่ำและให้ความคิดเห็นแก่ผู้ใช้ทันที
  • ลดหรือเพิ่มประสิทธิภาพภาระงานฝั่งเซิร์ฟเวอร์ ลดภาระงานและค่าใช้จ่ายฝั่งเซิร์ฟเวอร์ในการตรวจหาเนื้อหาที่เป็นพิษ เหตุผลแรกคือคำแนะนำที่แสดงต่อผู้ใช้อาจช่วยลดปริมาณของความคิดเห็นที่เป็นพิษได้ และเหตุผลที่ 2 คือการแจ้งว่าความคิดเห็นบางรายการมีแนวโน้มจะเป็นพิษก่อนที่จะส่งไปยังเซิร์ฟเวอร์จะช่วยให้คุณจัดลําดับความสําคัญของความคิดเห็นเหล่านั้นในการตรวจสอบฝั่งเซิร์ฟเวอร์ได้
  • ลดความซับซ้อนของงาน ลดภาระของผู้ดูแล

กรณีการใช้งาน

เหตุผลบางประการที่ควรสร้างการตรวจหาเนื้อหาที่เป็นพิษฝั่งไคลเอ็นต์มีดังนี้

  • การตรวจจับทันทีในระบบความคิดเห็น ให้ฟีดแบ็กทันทีแก่ผู้ใช้ที่ร่างความคิดเห็นที่เป็นพิษ โดยแนะนำให้ผู้ใช้เรียบเรียงข้อความใหม่ก่อนโพสต์ เมื่อใช้ AI ฝั่งไคลเอ็นต์ คุณจะทําสิ่งเหล่านี้ได้โดยไม่ต้องใช้คีย์ API, ไม่มีต้นทุนการจัดประเภทฝั่งเซิร์ฟเวอร์รันไทม์ และเวลาในการตอบสนองต่ำ ซึ่งเหมาะสําหรับแอปแชท
  • การดูแลแบบเรียลไทม์ในแชทสด ระบุและแจ้งว่าข้อความจากผู้ใช้เป็นพิษได้อย่างรวดเร็ว ซึ่งช่วยให้ผู้ดูแลสามารถแทรกแซงได้ทันที

ตรวจสอบฝั่งเซิร์ฟเวอร์ต่อไป

แม้ว่าการตรวจหาเนื้อหาที่เป็นพิษฝั่งไคลเอ็นต์จะรวดเร็ว แต่ผู้ใช้ที่ฉลาดแกมโกงซึ่งเชี่ยวชาญด้านหน้าเว็บอาจปิดใช้การตรวจหาได้ นอกจากนี้ ไม่มีระบบตรวจหาเนื้อหาที่เป็นพิษใดที่ทำงานได้อย่างแม่นยำ 100%

ด้วยเหตุนี้ เราจึงขอแนะนําอย่างยิ่งให้คุณยังคงใช้หรือคงการตรวจสอบเพิ่มเติมกับเซิร์ฟเวอร์ไว้ แทนที่จะใช้การตรวจหาเนื้อหาที่เป็นพิษฝั่งไคลเอ็นต์เพียงอย่างเดียว เช่น เสริมการตรวจสอบฝั่งไคลเอ็นต์แบบเรียลไทม์ด้วยการตรวจสอบฝั่งเซิร์ฟเวอร์แบบไม่พร้อมกันโดยใช้ Perspective API หากต้องการใช้แนวทางที่ครอบคลุม คุณสามารถรวมเครื่องมือเหล่านี้เข้ากับการดูแลโดยเจ้าหน้าที่ได้

คำเตือน

การตรวจหาเนื้อหาที่เป็นพิษฝั่งไคลเอ็นต์ต้องดาวน์โหลดโมเดลการจัดประเภทลงในหน้าเว็บของคุณ และมักเป็นไลบรารี AI ฝั่งไคลเอ็นต์

พิจารณาผลกระทบต่อไปนี้

  • ค่าใช้จ่ายในการจัดเก็บและแสดงโมเดล โมเดลอาจมีขนาดใหญ่
  • ประสิทธิภาพและ UX เนื่องจากคลังและโมเดลจะเพิ่มขนาดของกลุ่ม

พิจารณาถึงประโยชน์ก่อนตัดสินใจว่ากรณีการใช้งานของคุณเหมาะกับวิธีนี้หรือไม่ ใช้แนวทางปฏิบัติแนะนำด้านประสิทธิภาพสําหรับ AI ฝั่งไคลเอ็นต์ และแคชโมเดลเพื่อให้การดาวน์โหลดมีค่าใช้จ่ายเพียงครั้งเดียว

วิธีการทํางานของการจัดประเภทเนื้อหาที่เป็นพิษ

ก่อนจะดูการใช้งานอย่างเต็มรูปแบบ เรามาดูข้อมูลเบื้องต้นเกี่ยวกับการตรวจหาเนื้อหาที่เป็นพิษกัน

โมเดลการตรวจหาเนื้อหาที่เป็นพิษจะวิเคราะห์ข้อความที่มีอยู่ ไม่ใช่สร้างเนื้อหาใหม่ (Generative AI) ซึ่งเป็นงาน NLP (การประมวลผลภาษาธรรมชาติ) แบบคลาสสิก

งานการประมวลผลภาษาธรรมชาติ แหล่งที่มา HuggingFace

การตรวจหาเนื้อหาที่เป็นพิษอาศัยตัวแยกประเภทข้อความที่จัดหมวดหมู่ข้อความว่ามีแนวโน้มจะเป็นพิษหรือไม่เป็นพิษ ตัวจัดประเภทความเป็นพิษจะรับข้อความเป็นอินพุตและกำหนดป้ายกำกับความเป็นพิษต่างๆ ให้กับข้อความนั้น พร้อมกับคะแนน คะแนนมีตั้งแต่ 0 ถึง 1 คะแนนที่สูงขึ้นบ่งชี้ว่าอินพุตมีแนวโน้มที่จะไม่เหมาะสม

การตรวจหาเนื้อหาที่เป็นพิษอาศัยตัวแยกประเภทข้อความที่จัดหมวดหมู่ข้อความว่ามีแนวโน้มจะเป็นพิษหรือไม่เป็นพิษ

ระบบจะจัดประเภทและคะแนนอินพุตของผู้ใช้

ตัวอย่างเช่น โมเดล Xenova/toxic-bert ซึ่งเป็นเวอร์ชันที่ใช้งานกับเว็บได้ของ unitary/toxic-bert โดยมีป้ายกำกับ 6 รายการดังนี้

  • toxic
  • severe_toxic
  • insult
  • obscene
  • identity_hate
  • threat

ป้ายกำกับอย่าง toxic และ severe_toxic บ่งบอกถึงความเป็นพิษโดยรวม

ป้ายกำกับอื่นๆ จะละเอียดกว่า ฟีเจอร์นี้จะระบุลักษณะที่เป็นพิษที่เฉพาะเจาะจง เช่น identity_hate (การกลั่นแกล้งหรือการข่มขู่เกี่ยวกับตัวตนของบุคคล เช่น เชื้อชาติ ศาสนา อัตลักษณ์ทางเพศ และอื่นๆ) หรือ threat (ข้อความที่แสดงเจตนาที่จะสร้างความเสียหาย)

โมเดลความเป็นพิษแต่ละรูปแบบมีวิธีจัดประเภทที่แตกต่างกัน ลองดูตัวอย่างต่อไปนี้

ในตัวอย่างนี้ อินพุตต่อไปนี้มีคำว่า "เกลียด" และมุ่งเป้าไปที่บุคคล คะแนน toxicity จึงสูง (0.92) แต่ไม่พบประเภทความเป็นพิษที่เฉพาะเจาะจง คะแนนอื่นๆ จึงต่ำ

Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

ในตัวอย่างถัดไป อินพุตมีโทนโดยรวมแสดงความเกลียดชัง จึงได้รับคะแนนtoxicityสูง (0.92) เนื่องจากมีการพูดถึงความเสียหายอย่างชัดเจน คะแนนthreatจึงสูงด้วย (0.81)

Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

ถัดไป

เมื่อเข้าใจบริบทแล้ว คุณก็เริ่มสร้างระบบการตรวจหาเนื้อหาที่เป็นพิษด้วย AI ฝั่งไคลเอ็นต์ได้

อ่านส่วนที่ 2