تاريخ النشر: 13 تشرين الثاني (نوفمبر) 2024
أصبح الكلام الذي يحضّ على الكراهية والتحرش والإساءة على الإنترنت مشكلة منتشرة. تؤدي التعليقات المسيئة إلى إسكات الأصوات المهمة وإبعاد المستخدمين والعملاء. تحمي ميزة رصد المحتوى الضار المستخدمين وتوفّر بيئة أكثر أمانًا على الإنترنت.
في هذه السلسلة المكونة من جزأين، نستكشف كيفية استخدام الذكاء الاصطناعي لرصد المحتوى السام والحدّ منه عند مصدره: لوحات مفاتيح المستخدمين.
في هذا الجزء الأول، نناقش حالات الاستخدام ومزايا هذا النهج.
في الجزء الثاني، نشارك كيفية التنفيذ، بما في ذلك أمثلة على الرموز البرمجية ونصائح حول تجربة المستخدم.
سبب إجراء رصد المحتوى الضار من جهة العميل
المزايا
يشكّل رصد المحتوى الضار من جهة العميل خط دفاع أوّلًا مفيدًا، وهو مكمل رائع لعمليات التحقّق من جهة الخادم. توفّر ميزة رصد المحتوى الضار من جهة العميل مزايا متعدّدة:
- رصد اللغة غير اللائقة في وقت مبكر: باستخدام عمليات التحقّق من جهة العميل، يمكنك رصد المحتوى الضار عند مصدره، بدون التأثير في الخادم.
- فعِّل عمليات التحقّق في الوقت الفعلي. استخدِم سرعة المعالجة من جهة العميل لإنشاء التطبيقات التي تتميز بوقت استجابة منخفض وتقديم ملاحظات فورية للمستخدمين.
- تقليل أو تحسين حجم العمل من جهة الخادم يمكنك تقليل الحمولة والعملية المتعلّقة برصد المحتوى غير اللائق من جهة الخادم: أولاً، لأنّ النصائح الموجّهة للمستخدمين قد تساعد في تقليل حجم التعليقات غير اللائقة، ولكن أيضًا لأنّ الإبلاغ عن محتوى معيّن على أنّه غير لائق قبل وصوله إلى خادمك يساعدك في تحديد أولوياته في عمليات التحقّق من جهة الخادم.
- تقليل العبء على الموظفين: تخفيف العبء عن المشرفين
حالات الاستخدام
في ما يلي بعض الأسباب المحتملة لبناء ميزة رصد المحتوى الضار من جهة العميل:
- الرصد الفوري في أنظمة التعليقات: تقديم ملاحظات فورية للمستخدمين الذين يخطّطون لنشر تعليقات مسيئة، وتشجيعهم على إعادة صياغة رسالتهم قبل نشرها باستخدام الذكاء الاصطناعي من جهة العميل، يمكنك تحقيق ذلك بدون مفتاح واجهة برمجة التطبيقات، وبدون تكاليف التصنيف من جهة الخادم أثناء التشغيل، وبوقت استجابة منخفض. ويمكن أن يكون ذلك مثاليًا لتطبيقات المحادثات.
- الإشراف في الوقت الفعلي على المحادثة المباشرة يمكنك بسرعة التعرّف على الرسائل المزعجة من المستخدمين والإبلاغ عنها، ما يتيح للمشرفين التدخل على الفور.
الاحتفاظ بعمليات التحقّق من جهة الخادم
على الرغم من أنّ رصد المحتوى الضار من جهة العميل يكون سريعًا، إلا أنّه قد يتم إيقافه من قِبل مستخدم تطبيقات ويب ضارٍ لديه معرفة بالواجهة الأمامية. بالإضافة إلى ذلك، لا يمكن لأي نظام رصد سمية أن يكون دقيقًا بنسبة 100%.
لهذه الأسباب، ننصحك بشدة بمواصلة تنفيذ أو الاحتفاظ بميزة المراجعة الإضافية من خلال خادم بدلاً من الاعتماد على ميزة اكتشاف المحتوى الضار من جهة العميل فقط. على سبيل المثال، يمكنك إضافة مراجعة غير متزامنة من جهة الخادم باستخدام Perspective API إلى عملية التحقّق من جهة العميل في الوقت الفعلي. وللحصول على نهج شامل، يمكنك الجمع بين هذه الإجراءات والإشراف البشري.
المحاذير
يتطلب رصد المحتوى الضار من جهة العميل تنزيل نموذج تصنيف في صفحة الويب، وغالبًا ما يكون نموذجًا من مكتبة الذكاء الاصطناعي من جهة العميل.
وننصحك بالتفكير في الآثار التالية:
- تكاليف استضافة النماذج وعرضها قد يكون النموذج كبيرًا.
- الأداء وتجربة المستخدم: ستؤدي المكتبة والنموذج إلى زيادة حجم الحِزمة.
ننصحك بالتفكير في المزايا قبل تحديد ما إذا كان هذا الإجراء مناسبًا لحالة الاستخدام. طبِّق أفضل الممارسات المتعلّقة بالأداء للذكاء الاصطناعي من جهة العميل وخزِّن النموذج بحيث يكون التحميل تكلفة لمرة واحدة.
آلية تصنيف المحتوى حسب مستوى سمّيته
قبل الاطّلاع على التنفيذ الكامل، يُرجى الاطّلاع على أساسيات رصد المحتوى السام.
يحلِّل نموذج رصد المحتوى المسيء النص الحالي بدلاً من إنشاء محتوى جديد (الذكاء الاصطناعي التوليدي). وهي مهمة معالجة لغات طبيعية كلاسيكية.
يعتمد رصد اللغة غير اللائقة على أدوات تصنيف النصوص التي تصنّف النص على أنّه ينتمي على الأرجح إلى فئة اللغة غير اللائقة أو فئة اللغة غير المؤذية. تأخذ أدوات تصنيف اللغة غير اللائقة النص كإدخال وتصنّفه حسب تصنيفات مختلفة للغة غير اللائقة، بالإضافة إلى تقييم. تتراوح الدرجات بين 0 و1. وكلما كانت التقييمات أعلى، زادت احتمالية أن يكون الإدخال غير لائق.
يعتمد رصد اللغة غير اللائقة على أدوات تصنيف النصوص التي تصنّف النص على أنّه ينتمي على الأرجح إلى فئة اللغة غير اللائقة أو فئة اللغة غير المؤذية.
على سبيل المثال، نموذج Xenova/toxic-bert ، وهو إصدار متوافق مع الويب من unitary/toxic-bert. وتوفّر ستة تصنيفات:
toxic
severe_toxic
insult
obscene
identity_hate
threat
تشير التصنيفات مثل toxic
وsevere_toxic
إلى السمّية العامة.
أما التصنيفات الأخرى، فهي أكثر دقة. وتُحدِّد هذه المعايير أنواعًا معيّنة من المحتوى السام،
مثل identity_hate
(التسلط أو التهديدات بشأن هوية شخص، مثل
العِرق أو الدين أو الهوية الجنسانية وما إلى ذلك) أو threat
(بيان يشير إلى
الرغبة في إلحاق الضرر).
تعتمد نماذج السمية المختلفة طرقًا مختلفة للتعامل مع التصنيف. في ما يلي بعض الأمثلة التمثيلية.
في هذا المثال، يتضمّن الإدخال التالي كلمة "كراهية" وهو موجّه ضد
شخص، لذا تكون نتيجة toxicity
مرتفعة (0.92
). ولم يتم تحديد نوع مسيء محدّد
، لذا تكون النتائج الأخرى منخفضة.
Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]
في المثال التالي، يتضمن الإدخال نغمة كراهية بشكل عام، لذا تم منحه نتيجة عالية
toxicity
(0.92
). ونظرًا للإشارة الصريحة إلى الضرر، تكون نتيجة threat
مرتفعة أيضًا (0.81
).
Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]
التالي
بعد أن تعرّفت على السياق، يمكنك البدء في إنشاء نظام الذكاء الاصطناعي لرصد المحتوى الضار من جهة العميل.