So sánh khả năng của LLM với tính năng tóm tắt

Ngày xuất bản: 30 tháng 10 năm 2024

Việc xây dựng các tính năng bằng mô hình ngôn ngữ lớn (LLM) khá khác với kỹ thuật phần mềm thông thường. Nhà phát triển cần tìm hiểu kỹ thuật câu lệnh để xử lý kết quả không xác định, dữ liệu đầu vào xử lý trước và kết quả xử lý sau.

Một trong những thách thức mà bạn đã chia sẻ với chúng tôi là việc kiểm thử đầu ra từ LLM, xác định tính hợp lệ và chất lượng, sẽ mất nhiều thời gian. Các nhà phát triển thường tạo hàng loạt đầu ra bằng nhiều dữ liệu đầu vào, sau đó xác thực các đầu ra đó theo cách thủ công bằng cách đánh giá của con người.

Một phương pháp có thể mở rộng hơn để đánh giá kết quả của nhiều mô hình và câu lệnh là kỹ thuật LLM làm trọng tài. Với kỹ thuật này, thay vì dựa vào phán đoán của con người, việc xác thực mô hình sẽ được uỷ quyền cho một LLM khác. LLM thứ hai phải là một LLM lớn hơn, dựa trên đám mây, có khả năng suy luận tốt hơn.

Trong tài liệu này, chúng tôi sử dụng tính năng tóm tắt để minh hoạ cách bạn có thể tiếp cận việc so sánh các mô hình khác nhau và ngoài ra, còn cho thấy sự cải thiện về chất lượng từ Gemma đến Gemma 2.

Chọn mô hình để so sánh và chuẩn bị dữ liệu

Chúng tôi đã đánh giá khả năng tóm tắt của 3 mô hình. Chúng tôi đã so sánh kết quả của hai mô hình mở của Google có thể chạy phía máy khách, GemmaGemma 2, cả hai đều có kích thước 2 tỷ tham số. Ngược lại, chúng tôi cũng đánh giá một mô hình dựa trên đám mây lớn hơn và mạnh mẽ hơn: Gemini 1.5 Flash.

Chúng tôi đã sử dụng một tập dữ liệu gồm 2225 bài viết của BBC, bao gồm các lĩnh vực như kinh doanh, giải trí, chính trị, thể thao và công nghệ. Chúng tôi đã tạo bản tóm tắt của từng bài viết bằng cách sử dụng từng mô hình đã chọn. Tất cả các mô hình đều sử dụng cùng một câu lệnh:

Tóm tắt bài viết trong một đoạn.

Chúng tôi đã lưu trữ các bài viết gốc và tạo bản tóm tắt trong cơ sở dữ liệu để dễ dàng truy cập vào các bài viết đó ở mỗi bước.

Chọn một giám khảo để phân tích và chấm điểm bản tóm tắt

Để phân tích chất lượng bản tóm tắt, chúng tôi đã sử dụng Gemini 1.5 Flash để đánh giá bản tóm tắt do Gemma 2B và Gemma 2 2B tạo. Phương pháp cụ thể của chúng tôi dựa trên việc căn chỉnh, là một phần của chỉ số tóm tắt DeepEval.

Độ phù hợp là chỉ số đo lường tần suất các câu lệnh có trong bản tóm tắt được hỗ trợ trong nội dung gốc mà bản tóm tắt dựa trên đó.

Chúng tôi chia quy trình đánh giá thành hai bước. Trước tiên, chúng tôi đã nhắc mô hình chia mỗi bản tóm tắt thành các câu lệnh riêng biệt. Sau đó, chúng tôi yêu cầu mô hình xác định xem văn bản gốc của bài viết có hỗ trợ từng câu nhận định hay không.

Trích xuất câu lệnh từ bản tóm tắt

Chúng tôi yêu cầu Gemini 1.5 Flash phân chia văn bản dài thành các câu lệnh riêng biệt. Ví dụ:

Hậu vệ David Weir của Everton đã hạ thấp tầm quan trọng của bóng đá châu Âu, mặc dù đội bóng của anh đang đứng ở vị trí thứ hai tại giải Ngoại hạng sau khi đánh bại Liverpool.

Gemini 1.5 Flash đã chia câu này thành các câu lệnh sau:

  • "David Weir chơi ở vị trí hậu vệ cho Everton."
  • "Everton hiện đang xếp thứ hai tại giải Ngoại hạng Anh."
  • "Everton đã đánh bại Liverpool trong một trận đấu gần đây."
  • "David Weir đã giảm thiểu việc thảo luận về việc Everton chơi ở giải bóng đá châu Âu."

Xác thực câu lệnh

Sau đó, chúng tôi yêu cầu Gemini 1.5 Flash phân tích câu ban đầu so với các câu lệnh được tách riêng. Mô hình này phân loại tính hợp lệ của từng câu lệnh là:

  • : Nội dung gốc hỗ trợ cho câu nhận định.
  • Không. Câu nhận định này trái ngược với văn bản gốc.
  • Tôi không biết. Không thể xác minh liệu câu nhận định có được hỗ trợ hay không hoặc liệu câu nhận định có mâu thuẫn với văn bản gốc hay không.

Phân tích kết quả

Quy trình này đã tạo ra hai chỉ số có thể dùng để so sánh các mô hình:

  • Độ phù hợp: Tần suất mô hình tạo bản tóm tắt chứa các câu lệnh được văn bản gốc hỗ trợ.
  • Độ phong phú: Số lượng câu lệnh trung bình có trong bản tóm tắt do mô hình tạo.
Biểu đồ so sánh độ phong phú và độ phù hợp của mô hình.
Hình 1. Khi so sánh Gemma 2B, Gemma 2 2B và Gemini 1.5 Flash, tất cả đều đạt điểm cao.

Căn chỉnh

Chúng tôi tính toán mức độ phù hợp bằng cách đếm số lượng bản tóm tắt có ít nhất một câu lệnh được đánh dấu là "Không" rồi chia số lượng này cho tổng số bản tóm tắt.

Mô hình Gemini 1.5 Flash có điểm căn chỉnh cao nhất, vượt quá 92%. Điều này có nghĩa là công cụ này rất giỏi trong việc bám sát thực tế và tránh bịa đặt.

Gemma 2 2B có điểm số đáng nể là 78,64%, cho thấy độ chính xác ở mức tốt. Trong khi đó, phiên bản Gemma 2B trước đó có điểm căn chỉnh thấp hơn, tức là phiên bản này dễ đưa vào thông tin không được hỗ trợ bởi văn bản gốc.

Độ phong phú

Chúng tôi tính độ phong phú của mô hình bằng cách lấy trung bình số lượng câu lệnh do mô hình tạo ra cho mỗi bản tóm tắt.

Gemma 2 2B có điểm phong phú cao nhất là 9,1, cho biết bản tóm tắt của bài viết này có nhiều thông tin chi tiết và điểm chính hơn. Mô hình Gemini 1.5 Flash cũng có điểm độ phong phú cao, vượt quá 8,4. Gemma 2B có điểm độ phong phú thấp hơn, cho thấy rằng công cụ này có thể không thu thập được nhiều thông tin quan trọng từ văn bản gốc.

Kết luận

Chúng tôi xác định rằng các mô hình nhỏ hơn có thể chạy phía máy khách, chẳng hạn như Gemma 2 2B, có thể tạo ra đầu ra chất lượng cao. Mặc dù các mô hình dựa trên đám mây, chẳng hạn như Gemini 1.5 Flash, rất xuất sắc trong việc tạo bản tóm tắt phù hợp với bài viết gốc, chứa một lượng thông tin đáng kể, nhưng bạn cần cân nhắc sự khác biệt này cùng với hiệu suất của ứng dụng, nhu cầu về quyền riêng tư và bảo mật, cũng như các câu hỏi khác mà bạn có thể đặt ra khi xác định xem có nên xây dựng AI phía máy khách hay không.

Có sự tiến triển rõ ràng về khả năng của gia đình mô hình Gemma, vì Gemma 2 2B có thể tạo bản tóm tắt phong phú và phù hợp hơn so với Gemma 2B.

Đánh giá các trường hợp sử dụng

Tài liệu này chỉ đề cập sơ lược về những gì có thể làm được với LLM dưới dạng kỹ thuật đánh giá. Ngay cả khi tóm tắt, bạn vẫn có thể xem nhiều chỉ số hơn và kết quả có thể khác nhau. Ví dụ: bạn có thể đánh giá mức độ phù hợp bằng cách sử dụng một câu lệnh để xác định các điểm chính trong một bài viết, sau đó sử dụng một câu lệnh khác để xác thực xem các điểm chính đó có được đề cập trong mỗi bản tóm tắt hay không.

Các trường hợp sử dụng khác, chẳng hạn như viết văn bản, viết lại văn bản hoặc tạo dữ liệu tăng cường truy xuất (RAG) có thể có kết quả khác nhau cho cùng một chỉ số hoặc nên sử dụng các chỉ số khác để đánh giá.

Khi triển khai phương pháp này, hãy suy nghĩ về cách con người đánh giá kết quả để xác định chỉ số nào phù hợp nhất với trường hợp sử dụng của bạn. Bạn cũng nên xem xét các khung hiện có, chẳng hạn như DeepEval, có thể đã có một bộ chỉ số phù hợp với trường hợp sử dụng của bạn.

Bạn đã triển khai LLM làm người đánh giá để đánh giá các mô hình chưa? Hãy tweet cho chúng tôi về những phát hiện của bạn tại @ChromiumDev hoặc chia sẻ với Chrome cho nhà phát triển trên LinkedIn.