Ngày phát hành: 13 tháng 11 năm 2024
Lời nói hận thù, hành vi quấy rối và hành vi sai trái trên mạng đã trở thành vấn đề phổ biến trên mạng. Bình luận độc hại làm mất tiếng nói quan trọng và đuổi người dùng và khách hàng đi. Tính năng phát hiện nội dung độc hại giúp bảo vệ người dùng và tạo ra một môi trường trực tuyến an toàn hơn.
Trong loạt bài viết gồm hai phần này, chúng ta sẽ khám phá cách sử dụng AI để phát hiện và giảm thiểu nội dung độc hại ngay từ nguồn: bàn phím của người dùng.
Trong phần đầu tiên này, chúng ta sẽ thảo luận về các trường hợp sử dụng và lợi ích của phương pháp này.
Trong phần hai, chúng tôi sẽ chia sẻ cách triển khai, bao gồm cả ví dụ về mã và mẹo về trải nghiệm người dùng.
Lý do thực hiện tính năng phát hiện nội dung độc hại phía máy khách
Lợi ích
Tính năng phát hiện nội dung độc hại phía máy khách là một hàng rào bảo vệ hữu ích và là một giải pháp bổ sung tuyệt vời cho các bước kiểm tra phía máy chủ. Tính năng phát hiện nội dung độc hại phía máy khách mang lại nhiều lợi ích:
- Sớm phát hiện nội dung độc hại. Với các bước kiểm tra phía máy khách, bạn có thể phát hiện nội dung độc hại ngay từ nguồn mà không cần chạm vào máy chủ.
- Bật tính năng kiểm tra theo thời gian thực. Sử dụng tốc độ phía máy khách để xây dựng các ứng dụng có độ trễ thấp và cung cấp phản hồi tức thì cho người dùng.
- Giảm hoặc tối ưu hoá khối lượng công việc phía máy chủ. Giảm khối lượng công việc và chi phí phía máy chủ để phát hiện nội dung độc hại: trước tiên, vì các gợi ý dành cho người dùng có thể giúp giảm số lượng bình luận độc hại, nhưng cũng vì việc gắn cờ một số bình luận nhất định là có khả năng độc hại trước khi chúng đến máy chủ của bạn sẽ giúp bạn ưu tiên các bình luận đó trong quy trình kiểm tra phía máy chủ.
- Giảm gánh nặng cho con người. Giảm gánh nặng cho người kiểm duyệt nội dung.
Trường hợp sử dụng
Sau đây là một số lý do có thể khiến bạn xây dựng tính năng phát hiện nội dung độc hại phía máy khách:
- Phát hiện ngay lập tức trong hệ thống bình luận. Cung cấp ý kiến phản hồi ngay lập tức cho những người dùng soạn bình luận độc hại, khuyến khích họ diễn đạt lại nội dung trước khi đăng. Với AI phía máy khách, bạn có thể đạt được điều này mà không cần khoá API, không tốn chi phí phân loại phía máy chủ trong thời gian chạy và có độ trễ thấp. Đây có thể là lựa chọn lý tưởng cho các ứng dụng nhắn tin.
- Kiểm duyệt theo thời gian thực trong cuộc trò chuyện trực tiếp. Nhanh chóng xác định và gắn cờ các tin nhắn độc hại của người dùng, cho phép người kiểm duyệt can thiệp ngay lập tức.
Tiếp tục kiểm tra phía máy chủ
Mặc dù tính năng phát hiện nội dung độc hại phía máy khách hoạt động nhanh chóng, nhưng một người dùng tinh vi về giao diện người dùng độc hại có thể tắt tính năng này. Ngoài ra, không có hệ thống phát hiện nội dung độc hại nào là chính xác 100%.
Vì những lý do này, bạn vẫn nên triển khai hoặc duy trì một quy trình xem xét bổ sung bằng máy chủ, thay vì chỉ dựa vào tính năng phát hiện nội dung độc hại phía máy khách. Ví dụ: bổ sung quy trình kiểm tra phía máy khách theo thời gian thực bằng quy trình xem xét không đồng bộ phía máy chủ bằng cách sử dụng Perspective API. Để có một phương pháp toàn diện, bạn có thể kết hợp các biện pháp này với việc kiểm duyệt thủ công.
Chú ý
Tính năng phát hiện nội dung độc hại phía máy khách yêu cầu tải mô hình phân loại xuống trang web của bạn và thường là thư viện AI phía máy khách.
Hãy cân nhắc những điều này:
- Chi phí lưu trữ và phân phát mô hình. Mô hình có thể có dung lượng lớn.
- Hiệu suất và trải nghiệm người dùng. Thư viện và mô hình sẽ làm tăng kích thước gói.
Hãy cân nhắc các lợi ích trước khi quyết định xem tính năng này có phù hợp với trường hợp sử dụng của bạn hay không. Áp dụng các phương pháp hay nhất về hiệu suất cho AI phía máy khách và lưu mô hình vào bộ nhớ đệm để tải xuống là một chi phí một lần.
Cách hoạt động của tính năng phân loại nội dung độc hại
Trước khi xem xét cách triển khai đầy đủ, hãy xem những điều cần thiết về việc phát hiện nội dung độc hại.
Mô hình phát hiện nội dung độc hại phân tích văn bản hiện có thay vì tạo nội dung mới (AI tạo sinh). Đây là một nhiệm vụ NLP (Xử lý ngôn ngữ tự nhiên) kinh điển.
Tính năng phát hiện nội dung độc hại dựa vào các thuật toán phân loại văn bản để phân loại văn bản là có khả năng độc hại hoặc vô hại. Các thuật toán phân loại nội dung độc hại lấy văn bản làm dữ liệu đầu vào và chỉ định cho văn bản đó nhiều nhãn độc hại cùng với điểm số. Điểm số dao động từ 0 đến 1. Điểm số càng cao thì nội dung đầu vào càng có khả năng độc hại.
Tính năng phát hiện nội dung độc hại dựa vào các thuật toán phân loại văn bản để phân loại văn bản là có khả năng độc hại hoặc vô hại.
Lấy ví dụ về mô hình Xenova/toxic-bert, một phiên bản tương thích với web của unitary/toxic-bert. Thành phần này cung cấp 6 nhãn:
toxic
severe_toxic
insult
obscene
identity_hate
threat
Các nhãn như toxic
và severe_toxic
biểu thị mức độ độc hại tổng thể.
Các nhãn khác chi tiết hơn. Các chỉ số này xác định các loại nội dung độc hại cụ thể, ví dụ: identity_hate
(bắt nạt hoặc đe doạ về danh tính của một người, chẳng hạn như chủng tộc, tôn giáo, bản dạng giới, v.v.) hoặc threat
(tuyên bố về ý định gây tổn hại).
Các mô hình độc hại khác nhau có cách tiếp cận phân loại khác nhau. Sau đây là một số ví dụ tiêu biểu.
Trong ví dụ này, dữ liệu đầu vào sau đây có chứa từ "thù hận" và nhắm đến một người, vì vậy, điểm toxicity
là cao (0.92
). Không xác định được loại độc hại cụ thể nào, vì vậy, các điểm khác đều thấp.
Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]
Trong ví dụ tiếp theo, dữ liệu đầu vào có giọng điệu hận thù tổng thể, vì vậy, dữ liệu này được tính điểm toxicity
cao (0.92
). Do đề cập rõ ràng đến hành vi gây tổn hại, nên điểm threat
cũng cao (0.81
).
Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]
Tiếp theo
Giờ đây, khi đã hiểu rõ bối cảnh, bạn có thể bắt đầu xây dựng hệ thống phát hiện nội dung độc hại bằng AI phía máy khách.