पहला हिस्सा: ऑनलाइन प्लैटफ़ॉर्म पर बुरे बर्ताव को रोकने के लिए क्लाइंट-साइड एआई

Maud Nalpas
Maud Nalpas

पब्लिश होने की तारीख: 13 नवंबर, 2024

नफ़रत फैलाने वाली भाषा, उत्पीड़न, और ऑनलाइन बुरे बर्ताव की समस्या, इंटरनेट पर आम हो गई है. बुरा बर्ताव करने वाली टिप्पणियों की वजह से, अहम आवाज़ें दब जाती हैं और लोग और ग्राहक चले जाते हैं. आपत्तिजनक कॉन्टेंट का पता लगाने की सुविधा, आपके उपयोगकर्ताओं को सुरक्षित रखती है और ऑनलाइन प्लैटफ़ॉर्म पर सुरक्षित माहौल बनाती है.

इस दो भाग वाली सीरीज़ में, हम एआई का इस्तेमाल करके, उपयोगकर्ताओं के कीबोर्ड पर मौजूद, नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने और उसे कम करने के तरीके के बारे में बताएंगे.

इस पहले हिस्से में, हम इस तरीके के इस्तेमाल के उदाहरणों और फ़ायदों के बारे में बात करेंगे.

दूसरे हिस्से में, हम इसे लागू करने का तरीका शेयर करते हैं. इसमें कोड के उदाहरण और यूज़र एक्सपीरियंस (यूएक्स) से जुड़ी सलाह शामिल हैं.

क्लाइंट-साइड पर, नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने की सुविधा क्यों इस्तेमाल करें

टिप्पणी पोस्ट करने का डेमो.
क्लाइंट-साइड पर नुकसान पहुंचाने वाली टिप्पणी का पता लगाने का उदाहरण: जब कोई उपयोगकर्ता टिप्पणी लिखना बंद कर देता है, तो ब्राउज़र में नुकसान पहुंचाने वाली टिप्पणी का विश्लेषण शुरू हो जाता है और रीयल-टाइम में चेतावनी दिखती है. डेमो देखें.

फ़ायदे

क्लाइंट-साइड पर नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने की सुविधा, सुरक्षा के लिए सबसे पहले इस्तेमाल की जाने वाली सुविधा है. साथ ही, यह सर्वर-साइड की जांच के लिए भी काफ़ी मददगार है. क्लाइंट-साइड पर नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने की सुविधा से कई फ़ायदे मिलते हैं:

  • बुरे बर्ताव का पता जल्दी लगाना. क्लाइंट-साइड जांच की मदद से, सर्वर को छुए बिना ही, नुकसान पहुंचाने वाले कॉन्टेंट को उसके सोर्स पर ही पकड़ा जा सकता है.
  • रीयल-टाइम में जांच करने की सुविधा चालू करें. कम इंतज़ार वाले ऐप्लिकेशन बनाने और अपने उपयोगकर्ताओं को तुरंत सुझाव देने के लिए, क्लाइंट-साइड स्पीड का इस्तेमाल करें.
  • सर्वर-साइड पर काम का बोझ कम करना या उसे ऑप्टिमाइज़ करना. बुरे बर्ताव का पता लगाने के लिए, सर्वर साइड पर होने वाले काम का बोझ और लागत कम करें: पहला, उपयोगकर्ताओं को दिए जाने वाले सुझावों से, बुरे बर्ताव वाली टिप्पणियों की संख्या कम हो सकती है. दूसरा, कुछ टिप्पणियों को आपके सर्वर पर आने से पहले ही 'बुरे बर्ताव वाली टिप्पणी' के तौर पर फ़्लैग करने से, सर्वर साइड की जांच में उन्हें प्राथमिकता दी जा सकती है.
  • मानवीय संसाधनों का इस्तेमाल कम करना. मॉडरेटर स्टाफ का बोझ कम करना.

उपयोग के उदाहरण

क्लाइंट-साइड पर नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने की सुविधा बनाने की कुछ वजहें यहां दी गई हैं:

  • टिप्पणी करने की सुविधा वाले सिस्टम में तुरंत पता लगाना. बुरे बर्ताव वाली टिप्पणियां लिखने वाले लोगों को तुरंत फ़ीडबैक दें. साथ ही, उन्हें टिप्पणी पोस्ट करने से पहले, अपने मैसेज को फिर से लिखने के लिए कहें. क्लाइंट-साइड एआई की मदद से, एपीआई पासकोड के बिना ऐसा किया जा सकता है. साथ ही, रनटाइम के दौरान सर्वर साइड पर डेटा को अलग-अलग कैटगरी में बांटने की लागत भी नहीं होती और इंतज़ार का समय भी कम होता है. यह चैट ऐप्लिकेशन के लिए सबसे सही हो सकता है.
  • लाइव चैट में रीयल-टाइम मॉडरेशन. उपयोगकर्ताओं के गलत मैसेज की तुरंत पहचान करके उन्हें फ़्लैग किया जा सकता है. इससे मॉडरेटर तुरंत कार्रवाई कर सकते हैं.

सर्वर-साइड की जांच जारी रखना

क्लाइंट-साइड पर नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने की प्रोसेस तेज़ी से होती है. हालांकि, नुकसान पहुंचाने वाले कॉन्टेंट को फ़्रंट-एंड पर आसानी से समझने वाला कोई उपयोगकर्ता, इस प्रोसेस को बंद कर सकता है. इसके अलावा, नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने वाला कोई भी सिस्टम 100% सटीक नहीं होता.

इन वजहों से, हमारा सुझाव है कि आप क्लाइंट-साइड पर नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने की सुविधा पर भरोसा करने के बजाय, सर्वर की मदद से कॉन्टेंट की जांच करने की सुविधा को लागू करें या पहले से लागू रखें. उदाहरण के लिए, Perspective API का इस्तेमाल करके, रीयल-टाइम क्लाइंट-साइड जांच के साथ-साथ, असाइनमेंट की समीक्षा करने के लिए, सर्वर-साइड की समीक्षा भी की जा सकती है. बेहतर नतीजे पाने के लिए, इन मशीन लर्निंग मॉडल को मैन्युअल तरीके से मॉडरेट करने की सुविधा के साथ इस्तेमाल किया जा सकता है.

चेतावनियां

क्लाइंट-साइड पर नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने के लिए, आपको अपने वेब पेज पर क्लासिफ़िकेशन मॉडल और अक्सर क्लाइंट-साइड एआई लाइब्रेरी डाउनलोड करनी होगी.

इन बातों का ध्यान रखें:

  • मॉडल को होस्ट करने और उसे दिखाने की लागत. मॉडल का साइज़ बड़ा हो सकता है.
  • परफ़ॉर्मेंस और यूज़र एक्सपीरियंस. लाइब्रेरी और मॉडल से आपके बंडल का साइज़ बढ़ जाएगा.

यह तय करने से पहले कि यह आपके इस्तेमाल के उदाहरण के लिए सही है या नहीं, इसके फ़ायदों पर विचार करें. क्लाइंट-साइड एआई (AI) के लिए परफ़ॉर्मेंस के सबसे सही तरीके लागू करें और मॉडल को कैश मेमोरी में सेव करें, ताकि डाउनलोड करने की ज़रूरत एक बार ही पड़े.

कॉन्टेंट को नुकसान पहुंचाने वाले कॉन्टेंट के तौर पर मार्क करने की सुविधा कैसे काम करती है

पूरी तरह से लागू करने से पहले, ज़हरीले कॉन्टेंट का पता लगाने से जुड़ी ज़रूरी बातों के बारे में जानें.

बुरे बर्ताव का पता लगाने वाला मॉडल, नया कॉन्टेंट जनरेट करने वाले एआई (जनरेटिव एआई) के बजाय, मौजूदा टेक्स्ट का विश्लेषण करता है. यह एक क्लासिक एनएलपी (नैचुरल लैंग्वेज प्रोसेसिंग) टास्क है.

नैचुरल लैंग्वेज प्रोसेसिंग से जुड़े टास्क. सोर्स HuggingFace.

बुरे बर्ताव का पता लगाने की सुविधा, टेक्स्ट क्लासिफ़ायर पर निर्भर करती है. ये क्लासिफ़ायर, टेक्स्ट को संभावित रूप से बुरे बर्ताव वाले या नुकसान पहुंचाने वाले के तौर पर कैटगरी में बांटते हैं. बुरे बर्ताव की पहचान करने वाले मॉडल, टेक्स्ट को इनपुट के तौर पर लेते हैं और उसे स्कोर के साथ-साथ, बुरे बर्ताव के अलग-अलग लेबल असाइन करते हैं. स्कोर की रेंज 0 से 1 तक होती है. ज़्यादा स्कोर का मतलब है कि इनपुट में बुरे बर्ताव की संभावना ज़्यादा है.

बुरे बर्ताव का पता लगाने की सुविधा, टेक्स्ट क्लासिफ़ायर पर निर्भर करती है. ये क्लासिफ़ायर, टेक्स्ट को संभावित रूप से बुरे बर्ताव वाले या नुकसान पहुंचाने वाले के तौर पर कैटगरी में बांटते हैं.

उपयोगकर्ता के इनपुट को अलग-अलग कैटगरी में बांटा जाता है और फिर उन्हें स्कोर दिया जाता है.

उदाहरण के लिए, Xenova/toxic-bert मॉडल, unitary/toxic-bert का वेब-संगत वर्शन है. इसमें छह लेबल उपलब्ध हैं:

  • toxic
  • severe_toxic
  • insult
  • obscene
  • identity_hate
  • threat

toxic और severe_toxic जैसे लेबल, कुल विषाक्तता के बारे में बताते हैं.

अन्य लेबल ज़्यादा सटीक होते हैं. ये मशीन लर्निंग मॉडल, अलग-अलग तरह के नुकसान पहुंचाने वाले कॉन्टेंट की पहचान करते हैं. उदाहरण के लिए, identity_hate (किसी व्यक्ति की पहचान, जैसे कि नस्ल, धर्म, लिंग की पहचान वगैरह के आधार पर धमकी देना या उसे धमकाना) या threat (किसी व्यक्ति को नुकसान पहुंचाने के इरादे से किया गया बयान).

अलग-अलग टॉक्सिकिटी मॉडल, कैटगरी तय करने के अलग-अलग तरीके अपनाते हैं. यहां कुछ उदाहरण दिए गए हैं.

इस उदाहरण में, नीचे दिए गए इनपुट में "नफ़रत" शब्द शामिल है और इसे किसी व्यक्ति के ख़िलाफ़ लिखा गया है. इसलिए, toxicity स्कोर ज़्यादा है (0.92). बुरे बर्ताव के किसी खास टाइप की पहचान नहीं की गई है, इसलिए अन्य स्कोर कम हैं.

Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

अगले उदाहरण में, इनपुट में नफ़रत फैलाने वाला रवैया है. इसलिए, इसे toxicity स्कोर (0.92) दिया गया है. नुकसान के बारे में साफ़ तौर पर बताने की वजह से, threat स्कोर भी ज़्यादा है (0.81).

Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

अगला

अब आपको कॉन्टेक्स्ट समझ आ गया है, तो क्लाइंट-साइड एआई का इस्तेमाल करके, नुकसान पहुंचाने वाले कॉन्टेंट का पता लगाने वाला सिस्टम बनाना शुरू किया जा सकता है.

दूसरा लेख पढ़ें