Ngày xuất bản: 30 tháng 10 năm 2024
Việc xây dựng các tính năng bằng mô hình ngôn ngữ lớn (LLM) khá khác với kỹ thuật phần mềm thông thường. Nhà phát triển cần tìm hiểu kỹ thuật lời nhắc để xử lý kết quả không xác định, dữ liệu đầu vào xử lý trước và kết quả xử lý sau.
Một trong những thách thức mà bạn đã chia sẻ với chúng tôi là việc kiểm thử đầu ra từ LLM, xác định tính hợp lệ và chất lượng, sẽ mất nhiều thời gian. Các nhà phát triển thường tạo hàng loạt đầu ra bằng nhiều dữ liệu đầu vào, sau đó xác thực các dữ liệu đầu ra đó theo cách thủ công bằng cách đánh giá của con người.
Một phương pháp có thể mở rộng hơn để đánh giá kết quả của nhiều mô hình và câu lệnh là kỹ thuật LLM làm trọng tài. Với kỹ thuật này, thay vì dựa vào phán đoán của con người, việc xác thực mô hình sẽ được uỷ quyền cho một LLM khác. LLM thứ hai phải là một LLM lớn hơn, dựa trên đám mây, có khả năng suy luận tốt hơn.
Trong tài liệu này, chúng tôi sử dụng tính năng tóm tắt để minh hoạ cách bạn có thể tiếp cận việc so sánh các mô hình khác nhau và ngoài ra, còn cho thấy sự cải thiện về chất lượng từ Gemma đến Gemma 2.
Chọn các mô hình để so sánh và chuẩn bị dữ liệu
Chúng tôi đã đánh giá khả năng tóm tắt của 3 mô hình. Chúng tôi đã so sánh kết quả của hai mô hình mở của Google có thể chạy phía máy khách, Gemma và Gemma 2, cả hai đều có kích thước tham số 2 tỷ. Ngược lại, chúng tôi cũng đánh giá một mô hình dựa trên đám mây lớn hơn và có nhiều tính năng hơn: Gemini 1.5 Flash.
Chúng tôi đã sử dụng một tập dữ liệu gồm 2225 bài viết của BBC, bao gồm các lĩnh vực như kinh doanh, giải trí, chính trị, thể thao và công nghệ. Chúng tôi đã tạo bản tóm tắt của từng bài viết bằng cách sử dụng từng mô hình đã chọn. Câu lệnh này đã được sử dụng trên tất cả mô hình:
Tóm tắt bài viết trong một đoạn.
Chúng tôi đã lưu trữ các bài viết gốc và tạo bản tóm tắt trong cơ sở dữ liệu để dễ dàng truy cập vào các bài viết đó ở mỗi bước.
Chọn một giám khảo để phân tích và chấm điểm bản tóm tắt
Để phân tích chất lượng bản tóm tắt, chúng tôi đã sử dụng Gemini 1.5 Flash để đánh giá các bản tóm tắt do Gemma 2 và Gemma 2 2B tạo. Phương pháp cụ thể của chúng tôi dựa trên sự phù hợp, một phần trong chỉ số tóm tắt của DeepEval.
Độ phù hợp là chỉ số đo lường tần suất các câu lệnh có trong bản tóm tắt được hỗ trợ trong nội dung gốc mà bản tóm tắt dựa trên đó.
Chúng tôi chia quy trình đánh giá thành hai bước. Trước tiên, chúng tôi đã nhắc mô hình chia mỗi bản tóm tắt thành các câu lệnh riêng biệt. Sau đó, chúng tôi yêu cầu mô hình xác định xem văn bản gốc của bài viết có hỗ trợ từng câu nhận định hay không.
Trích xuất câu lệnh từ bản tóm tắt
Chúng tôi đã yêu cầu Gemini 1.5 Flash chia đoạn văn bản dài hơn thành các câu lệnh riêng. Ví dụ:
Hậu vệ David Weir của Everton đã hạ thấp tầm quan trọng của bóng đá châu Âu, mặc dù đội bóng của anh đang đứng ở vị trí thứ hai tại giải Ngoại hạng sau khi đánh bại Liverpool.
Gemini 1.5 Flash đã chia câu này thành các câu lệnh sau:
- "David Weir chơi ở vị trí hậu vệ cho Everton."
- "Everton hiện đang ở vị trí thứ 2 tại giải Ngoại hạng."
- "Everton đã đánh bại Liverpool trong một trận đấu gần đây."
- "David Weir đã giảm thiểu những cuộc thảo luận về việc Everton chơi ở giải bóng đá châu Âu."
Xác thực câu lệnh
Sau đó, chúng tôi yêu cầu Gemini 1.5 Flash phân tích câu ban đầu so với các câu lệnh được tách riêng. Mô hình phân loại tính hợp lệ của mỗi câu lệnh là:
- Có: Câu lệnh được hỗ trợ bằng văn bản gốc.
- Không. Câu nhận định này trái ngược với văn bản gốc.
- Không biết. Không thể xác minh xem tuyên bố đó có được hỗ trợ hay không hoặc liệu tuyên bố đó có mâu thuẫn với văn bản gốc hay không.
Phân tích kết quả
Quy trình này đã tạo ra hai chỉ số có thể dùng để so sánh các mô hình:
- Độ phù hợp: Tần suất mô hình tạo bản tóm tắt chứa các câu lệnh được văn bản gốc hỗ trợ.
- Mức độ phong phú: Số câu lệnh trung bình có trong bản tóm tắt do mô hình tạo ra.
Căn chỉnh
Chúng tôi tính toán mức độ phù hợp bằng cách đếm số lượng bản tóm tắt có ít nhất một câu lệnh được đánh dấu là "Không" rồi chia số lượng này cho tổng số bản tóm tắt.
Mô hình Flash Gemini 1.5 có điểm căn chỉnh cao nhất, vượt 92%. Điều này có nghĩa là việc bám sát dữ kiện thực tế rất hữu ích và tránh tự bịa ra thông tin.
Gemma 2 2B có điểm số đáng nể là 78,64%, cho thấy độ chính xác ở mức tốt. Trong khi đó, phiên bản Gemma 2B trước đó có điểm căn chỉnh thấp hơn, tức là phiên bản này dễ đưa vào thông tin không được hỗ trợ bởi văn bản gốc.
Độ phong phú
Chúng tôi đã tính toán mức độ phong phú của mô hình bằng cách lấy trung bình số câu lệnh mà mô hình tạo ra cho mỗi bản tóm tắt.
Gemma 2 2B có điểm phong phú cao nhất là 9,1, cho biết bản tóm tắt của bài viết này có nhiều thông tin chi tiết và điểm chính hơn. Mô hình Gemini 1.5 Flash cũng có điểm độ phong phú cao, vượt quá 8,4. Gemma 2B có điểm độ phong phú thấp hơn, cho thấy rằng công cụ này có thể không thu thập được nhiều thông tin quan trọng từ văn bản gốc.
Kết luận
Chúng tôi xác định rằng các mô hình nhỏ hơn có thể chạy phía máy khách, chẳng hạn như Gemma 2 2B, có thể tạo ra đầu ra chất lượng cao. Mặc dù các mô hình dựa trên đám mây, chẳng hạn như Gemini 1.5 Flash, rất xuất sắc trong việc tạo bản tóm tắt phù hợp với bài viết gốc, chứa một lượng thông tin đáng kể, nhưng bạn cần cân nhắc sự khác biệt này cùng với hiệu suất của ứng dụng, nhu cầu về quyền riêng tư và bảo mật, cũng như các câu hỏi khác mà bạn có thể đặt ra khi xác định xem có nên xây dựng AI phía máy khách hay không.
Có sự tiến triển rõ ràng về khả năng của gia đình mô hình Gemma, vì Gemma 2 2B có thể tạo bản tóm tắt phong phú và phù hợp hơn so với Gemma 2B.
Đánh giá các trường hợp sử dụng
Tài liệu này chỉ đề cập đến những khả năng có thể thực hiện với LLM dưới dạng một kỹ thuật đánh giá. Ngay cả khi tóm tắt, bạn vẫn có thể xem nhiều chỉ số hơn và kết quả có thể khác nhau. Ví dụ: bạn có thể đánh giá mức độ phù hợp bằng cách sử dụng một câu lệnh để xác định các điểm chính trong một bài viết, sau đó sử dụng một câu lệnh khác để xác thực xem các điểm chính đó có được đề cập trong mỗi bản tóm tắt hay không.
Các trường hợp sử dụng khác, chẳng hạn như viết văn bản, viết lại văn bản hoặc tạo dữ liệu tăng cường truy xuất (RAG) có thể có kết quả khác nhau cho cùng một chỉ số hoặc nên sử dụng các chỉ số khác để đánh giá.
Khi triển khai phương pháp này, hãy nghĩ đến cách con người đánh giá kết quả để xác định chỉ số nào phù hợp nhất với trường hợp sử dụng của bạn. Bạn cũng nên xem xét các khung hiện có, chẳng hạn như DeepEval, vì các khung này có thể đã có một bộ chỉ số phù hợp với trường hợp sử dụng của bạn.
Bạn đã triển khai LLM làm người đánh giá để đánh giá các mô hình chưa? Hãy tweet cho chúng tôi về những phát hiện của bạn tại @ChromiumDev hoặc chia sẻ với Chrome cho nhà phát triển trên LinkedIn.