بخش 1: هوش مصنوعی سمت مشتری برای مبارزه با سمیت آنلاین

مود نالپاس
Maud Nalpas

تاریخ انتشار: 13 نوامبر 2024

سخنان مشوق تنفر، آزار و اذیت و سوء استفاده آنلاین به یک موضوع فراگیر در فضای مجازی تبدیل شده است. نظرات سمی صداهای مهم را خاموش می کند و کاربران و مشتریان را دور می کند . تشخیص سمیت از کاربران شما محافظت می کند و محیط آنلاین امن تری ایجاد می کند.

در این سری دو قسمتی، نحوه استفاده از هوش مصنوعی برای شناسایی و کاهش سمیت در منبع آن: صفحه کلید کاربران را بررسی می کنیم.

در این بخش اول، موارد استفاده و مزایای این روش را مورد بحث قرار می دهیم.

در بخش دوم ، پیاده سازی را شامل نمونه کد و نکات UX به اشتراک می گذاریم.

چرا تشخیص سمیت سمت مشتری انجام شود؟

نسخه ی نمایشی ارسال نظر.
نمونه‌ای از تشخیص سمیت سمت مشتری: وقتی کاربر نوشتن نظر را متوقف می‌کند، تجزیه و تحلیل سمیت در مرورگر اجرا می‌شود و یک هشدار در زمان واقعی نمایش داده می‌شود. دمو را ببینید.

مزایا

تشخیص سمیت سمت مشتری اولین خط دفاع مفید و مکمل عالی برای بررسی های سمت سرور است. تشخیص سمیت سمت مشتری مزایای متعددی را ارائه می دهد:

  • سمیت را زود تشخیص دهید . با بررسی های سمت مشتری، می توانید بدون دست زدن به سرور، سمیت را در منبع آن تشخیص دهید.
  • بررسی های بلادرنگ را فعال کنید . از سرعت سمت کلاینت برای ساخت برنامه های با تأخیر کم و ارائه بازخورد فوری به کاربران خود استفاده کنید.
  • حجم کاری سمت سرور را کاهش یا بهینه کنید . حجم کاری سمت سرور و هزینه‌های تشخیص سمیت را کاهش دهید: اول، به این دلیل که راهنمایی‌های کاربر ممکن است به کاهش حجم نظرات سمی کمک کند، اما همچنین به این دلیل که برخی از نظرات را به‌عنوان احتمال سمی علامت‌گذاری کنید قبل از اینکه روی سرور شما قرار گیرند، به شما کمک می‌کند آنها را در اولویت قرار دهید. بررسی های سمت سرور
  • بار انسان را کاهش دهید . بار ناظران انسانی را کاهش دهید.

موارد استفاده کنید

در اینجا چند دلیل ممکن برای ایجاد تشخیص سمیت سمت مشتری آورده شده است:

  • شناسایی فوری در سیستم های نظرات به کاربرانی که نظرات سمی را پیش‌نویس می‌کنند، بازخورد فوری ارائه دهید، و آنها را تشویق کنید که پیام خود را قبل از ارسال مجدداً بیان کنند. با هوش مصنوعی سمت کلاینت، می‌توانید بدون کلید API، بدون هزینه‌های طبقه‌بندی سمت سرور در زمان اجرا و تأخیر کم به این مهم دست پیدا کنید. این می تواند برای برنامه های چت ایده آل باشد.
  • تعدیل در زمان واقعی در چت زنده . به سرعت پیام‌های سمی کاربران را شناسایی و پرچم‌گذاری کنید، به مدیران اجازه می‌دهد تا فوراً مداخله کنند.

بررسی های سمت سرور خود را حفظ کنید

در حالی که تشخیص سمیت سمت کلاینت سریع است، یک کاربر مخرب و آگاه ممکن است آن را غیرفعال کند. علاوه بر این، هیچ سیستم تشخیص سمیت 100٪ دقیق نیست.

به این دلایل، اکیداً توصیه می‌کنیم به جای تکیه بر تشخیص سمیت سمت مشتری، باز هم یک بررسی اضافی را با سرور اجرا کنید یا نگه دارید. برای مثال، بررسی سمت سرویس گیرنده بلادرنگ خود را با بررسی ناهمزمان سمت سرور با استفاده از Perspective API تکمیل کنید. برای یک رویکرد جامع، می توانید اینها را با اعتدال انسانی ترکیب کنید.

هشدارها

تشخیص سمیت سمت مشتری نیاز به دانلود یک مدل طبقه بندی در صفحه وب شما و اغلب یک کتابخانه هوش مصنوعی سمت مشتری دارد.

پیامدها را در نظر بگیرید:

  • مدل هزینه های میزبانی و سرویس . مدل ممکن است بزرگ باشد.
  • عملکرد و UX . کتابخانه و مدل اندازه بسته شما را افزایش می دهد.

قبل از تصمیم گیری در مورد اینکه آیا این برای مورد استفاده شما مناسب است، مزایای آن را در نظر بگیرید. بهترین شیوه های عملکرد را برای هوش مصنوعی سمت سرویس گیرنده اعمال کنید و مدل را در حافظه پنهان نگه دارید تا دانلود یک بار هزینه داشته باشد.

طبقه بندی سمیت محتوا چگونه کار می کند

قبل از اینکه به اجرای کامل نگاه کنیم، به نکات ضروری تشخیص سمیت نگاهی بیندازیم.

یک مدل تشخیص سمیت به جای تولید محتوای جدید (هوش مصنوعی مولد) متن موجود را تجزیه و تحلیل می کند. این یک کار کلاسیک NLP (پردازش زبان طبیعی) است.

وظایف پردازش زبان طبیعی منبع HuggingFace

تشخیص سمیت به طبقه‌بندی‌کننده‌های متنی متکی است که متن را به احتمال زیاد سمی یا بی‌ضرر دسته‌بندی می‌کنند. طبقه‌بندی‌کننده‌های سمیت متن را به عنوان ورودی می‌گیرند و برچسب‌های سمیت مختلفی را به همراه یک امتیاز به آن اختصاص می‌دهند. امتیازات از 0 تا 1 متغیر است. نمرات بالاتر نشان می دهد که ورودی احتمال سمی بودن بیشتری دارد.

تشخیص سمیت به طبقه‌بندی‌کننده‌های متنی متکی است که متن را به احتمال زیاد سمی یا بی‌ضرر دسته‌بندی می‌کنند.

ورودی کاربر طبقه بندی شده و سپس امتیازدهی می شود.

به عنوان مثال مدل Xenova/toxic-bert ، یک نسخه سازگار با وب از unitary/toxic-bert را در نظر بگیرید. این شش برچسب ارائه می دهد:

  • toxic
  • severe_toxic
  • insult
  • obscene
  • identity_hate
  • threat

برچسب هایی مانند toxic و severe_toxic نشان دهنده سمیت کلی است.

برچسب های دیگر ریزدانه تر هستند. آنها انواع خاصی از سمیت را شناسایی می کنند، برای مثال identity_hate (قلدری یا تهدید در مورد هویت یک فرد، مانند نژاد، مذهب، هویت جنسیتی، و غیره) یا threat (اظهار قصد وارد کردن آسیب).

مدل‌های مختلف سمیت روش‌های متفاوتی برای طبقه‌بندی دارند. در اینجا چند نمونه نماینده آورده شده است.

در این مثال، ورودی زیر شامل کلمه "نفرت" است و متوجه یک فرد است، بنابراین نمره toxicity بالا است ( 0.92 ). هیچ نوع سمیت خاصی شناسایی نشده است، بنابراین امتیازات دیگر پایین است.

Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

در مثال بعدی، ورودی دارای لحن کلی نفرت انگیز است، بنابراین امتیاز toxicity بالایی به آن داده شده است ( 0.92 ). با توجه به ذکر صریح آسیب، امتیاز threat نیز بالا است ( 0.81 ).

Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

بعدی

اکنون که زمینه را درک کردید، می توانید شروع به ساخت یک سیستم تشخیص سمیت هوش مصنوعی در سمت مشتری کنید.

قسمت دوم را بخوانید