Cảm ơn bạn đã theo dõi Google I/O! Xem nội dung theo yêu cầu.

Phần 1: AI phía máy khách để chống lại nội dung độc hại trên mạng

Maud Nalpas

Ngày xuất bản: 13 tháng 11 năm 2024

Lời nói hận thù, hành vi quấy rối và hành vi sai trái trên mạng đã trở thành vấn đề phổ biến trên mạng. Bình luận độc hại làm mất tiếng những ý kiến quan trọng và đẩy người dùng và khách hàng ra xa. Tính năng phát hiện nội dung độc hại giúp bảo vệ người dùng và tạo ra một môi trường trực tuyến an toàn hơn.

Trong loạt bài gồm hai phần này, chúng ta sẽ tìm hiểu cách sử dụng AI để phát hiện và giảm thiểu nội dung độc hại ngay từ nguồn: bàn phím của người dùng.

Trong phần đầu tiên này, chúng ta sẽ thảo luận về các trường hợp sử dụng và lợi ích của phương pháp này.

Trong phần hai, chúng tôi sẽ chia sẻ cách triển khai, bao gồm cả ví dụ về mã và mẹo về trải nghiệm người dùng.

Lý do thực hiện tính năng phát hiện nội dung độc hại phía máy khách

Bản minh hoạ cách đăng bình luận. — Ví dụ về tính năng phát hiện nội dung độc hại phía máy khách: khi người dùng ngừng nhập bình luận, tính năng phân tích nội dung độc hại sẽ chạy trong trình duyệt và cảnh báo sẽ hiển thị theo thời gian thực. Xem bản minh hoạ.

Lợi ích

Tính năng phát hiện nội dung độc hại phía máy khách là một hàng rào bảo vệ hữu ích và là một giải pháp bổ sung tuyệt vời cho các bước kiểm tra phía máy chủ. Tính năng phát hiện nội dung độc hại phía máy khách mang lại nhiều lợi ích:

Sớm phát hiện nội dung độc hại. Với các bước kiểm tra phía máy khách, bạn có thể phát hiện nội dung độc hại ngay từ nguồn mà không cần chạm vào máy chủ.
Bật tính năng kiểm tra theo thời gian thực. Sử dụng tốc độ phía máy khách để xây dựng các ứng dụng có độ trễ thấp và cung cấp phản hồi tức thì cho người dùng.
Giảm hoặc tối ưu hoá khối lượng công việc phía máy chủ. Giảm khối lượng công việc và chi phí phía máy chủ để phát hiện nội dung độc hại: trước tiên, vì các gợi ý dành cho người dùng có thể giúp giảm số lượng bình luận độc hại, nhưng cũng vì việc gắn cờ một số bình luận nhất định là có khả năng độc hại trước khi chúng được gửi đến máy chủ của bạn sẽ giúp bạn ưu tiên các bình luận đó trong quy trình kiểm tra phía máy chủ.
Giảm gánh nặng cho con người. Giảm gánh nặng cho người kiểm duyệt nội dung.

Trường hợp sử dụng

Sau đây là một số lý do có thể khiến bạn xây dựng tính năng phát hiện nội dung độc hại phía máy khách:

Phát hiện ngay trong hệ thống bình luận. Cung cấp ý kiến phản hồi ngay lập tức cho những người dùng soạn bình luận độc hại, khuyến khích họ diễn đạt lại nội dung trước khi đăng. Với AI phía máy khách, bạn có thể đạt được điều này mà không cần khoá API, không mất chi phí phân loại phía máy chủ trong thời gian chạy và có độ trễ thấp. Đây có thể là lựa chọn lý tưởng cho các ứng dụng nhắn tin.
Kiểm duyệt theo thời gian thực trong cuộc trò chuyện trực tiếp. Nhanh chóng xác định và gắn cờ các tin nhắn độc hại của người dùng, cho phép người kiểm duyệt can thiệp ngay lập tức.

Duy trì các bước kiểm tra phía máy chủ

Mặc dù tính năng phát hiện nội dung độc hại phía máy khách hoạt động nhanh, nhưng một người dùng tinh vi về giao diện người dùng độc hại có thể tắt tính năng này. Ngoài ra, không có hệ thống phát hiện nội dung độc hại nào là chính xác 100%.

Vì những lý do này, bạn vẫn nên triển khai hoặc duy trì một quy trình xem xét bổ sung bằng máy chủ, thay vì chỉ dựa vào tính năng phát hiện nội dung độc hại phía máy khách. Ví dụ: bổ sung quy trình kiểm tra phía máy khách theo thời gian thực bằng quy trình xem xét không đồng bộ phía máy chủ bằng cách sử dụng Perspective API. Để có một phương pháp toàn diện, bạn có thể kết hợp các biện pháp này với việc kiểm duyệt thủ công.

Chú ý

Tính năng phát hiện nội dung độc hại phía máy khách yêu cầu tải mô hình phân loại xuống trang web của bạn và thường là thư viện AI phía máy khách.

Hãy cân nhắc những điều này:

Chi phí lưu trữ và phân phát mô hình. Mô hình có thể có kích thước lớn.
Hiệu suất và trải nghiệm người dùng. Thư viện và mô hình sẽ làm tăng kích thước gói.

Hãy cân nhắc các lợi ích trước khi quyết định xem tính năng này có phù hợp với trường hợp sử dụng của bạn hay không. Áp dụng các phương pháp hay nhất về hiệu suất cho AI phía máy khách và lưu mô hình vào bộ nhớ đệm để tải xuống là một chi phí một lần.

Cách hoạt động của tính năng phân loại nội dung độc hại

Trước khi xem xét cách triển khai đầy đủ, hãy xem những điều cần thiết về việc phát hiện nội dung độc hại.

Mô hình phát hiện nội dung độc hại phân tích văn bản hiện có thay vì tạo nội dung mới (AI tạo sinh). Đây là một nhiệm vụ NLP (Xử lý ngôn ngữ tự nhiên) kinh điển.

Các tác vụ xử lý ngôn ngữ tự nhiên. Nguồn HuggingFace.

Tính năng phát hiện nội dung độc hại dựa vào các thuật toán phân loại văn bản để phân loại văn bản là có khả năng độc hại hoặc vô hại. Các thuật toán phân loại nội dung độc hại lấy văn bản làm dữ liệu đầu vào và chỉ định cho văn bản đó nhiều nhãn độc hại cùng với điểm số. Điểm số dao động từ 0 đến 1. Điểm số càng cao thì nội dung đầu vào càng có khả năng độc hại.

Tính năng phát hiện nội dung độc hại dựa vào các thuật toán phân loại văn bản để phân loại văn bản là có khả năng độc hại hoặc vô hại.

Dữ liệu đầu vào của người dùng được phân loại rồi tính điểm.

Lấy ví dụ về mô hình Xenova/toxic-bert, một phiên bản tương thích với web của unitary/toxic-bert. Thành phần này cung cấp 6 nhãn:

toxic
severe_toxic
insult
obscene
identity_hate
threat

Các nhãn như toxic và severe_toxic biểu thị mức độ độc hại tổng thể.

Các nhãn khác có độ chi tiết cao hơn. Các chỉ số này xác định các loại nội dung độc hại cụ thể, ví dụ: identity_hate (bắt nạt hoặc đe doạ về danh tính của một người, chẳng hạn như chủng tộc, tôn giáo, bản dạng giới, v.v.) hoặc threat (tuyên bố về ý định gây tổn hại).

Các mô hình độc hại khác nhau có cách tiếp cận phân loại khác nhau. Sau đây là một số ví dụ tiêu biểu.

Trong ví dụ này, dữ liệu đầu vào sau đây có chứa từ "thù hận" và nhắm đến một người, vì vậy, điểm toxicity là cao (0.92). Không có loại độc hại cụ thể nào được xác định, vì vậy, các điểm khác đều thấp.

Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

Trong ví dụ tiếp theo, dữ liệu đầu vào có giọng điệu chung là hận thù, vì vậy, dữ liệu này được cho điểm toxicity cao (0.92). Do đề cập rõ ràng đến hành vi gây tổn hại, nên điểm threat cũng cao (0.81).

Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

Giờ đây, khi đã hiểu rõ bối cảnh, bạn có thể bắt đầu xây dựng hệ thống phát hiện nội dung độc hại bằng AI phía máy khách.

ĐỌC PHẦN HAI