เปรียบเทียบความสามารถของ LLM กับการสรุป

André Cipriani Bandarra

Alexandra Klepper

เผยแพร่เมื่อวันที่ 30 ตุลาคม 2024

การสร้างฟีเจอร์ด้วยโมเดลภาษาขนาดใหญ่ (LLM) นั้นแตกต่างจากวิศวกรรมซอฟต์แวร์แบบดั้งเดิมมาก นักพัฒนาแอปต้องเรียนรู้การสร้างพรอมต์เพื่อจัดการกับผลลัพธ์ที่ไม่แน่นอน อินพุตการประมวลผลก่อน และผลลัพธ์หลังการประมวลผล

ปัญหาอย่างหนึ่งที่คุณแชร์กับเราคือการทดสอบเอาต์พุตจาก LLM, การพิจารณาความถูกต้องและคุณภาพนั้นใช้เวลานาน นักพัฒนาซอฟต์แวร์มักใช้วิธีสร้างเอาต์พุตเป็นกลุ่มโดยใช้อินพุตที่แตกต่างกัน จากนั้นตรวจสอบด้วยตนเองโดยใช้วิจารณญาณ

แนวทางที่ปรับขนาดได้มากขึ้นในการประเมินผลลัพธ์ของโมเดลและพรอมต์ต่างๆ คือเทคนิคLLM เป็นตัวตัดสิน เทคนิคนี้จะช่วยในการตรวจสอบโมเดลโดยมอบหมายให้ LLM อื่นดำเนินการแทนการตัดสินของมนุษย์ LLM ตัวที่ 2 ต้องเป็น LLM ขนาดใหญ่กว่าซึ่งทำงานบนระบบคลาวด์ และมีแนวโน้มที่จะมีความสามารถในการอนุมานได้ดีกว่า

ในเอกสารนี้ เราใช้การสรุปเพื่อสาธิตวิธีเปรียบเทียบรูปแบบต่างๆ และแสดงการปรับปรุงคุณภาพจาก Gemma เป็น Gemma 2 เป็นโบนัส

เลือกรูปแบบสําหรับการเปรียบเทียบและเตรียมข้อมูล

เราประเมินความสามารถของโมเดล 3 รูปแบบในการสรุป เราเปรียบเทียบผลการค้นหาของโมเดลแบบเปิด 2 โมเดลของ Google ที่ทำงานฝั่งไคลเอ็นต์ได้ ซึ่งได้แก่ Gemma และ Gemma 2 โดยทั้ง 2 โมเดลมีขนาดพารามิเตอร์ 2,000 ล้านรายการ ในทางตรงกันข้าม เรายังได้ประเมินโมเดลที่ทำงานบนระบบคลาวด์ซึ่งมีขนาดใหญ่และมีประสิทธิภาพมากขึ้นด้วย นั่นคือ Gemini 1.5 Flash

เราใช้ชุดข้อมูลบทความ BBC 2,225 รายการ ซึ่งครอบคลุมหัวข้อต่างๆ เช่น ธุรกิจ ความบันเทิง การเมือง กีฬา และเทคโนโลยี และสร้างสรุปของแต่ละบทความโดยใช้โมเดลที่เลือกแต่ละรายการ ใช้พรอมต์เดียวกันกับทุกรูปแบบ

สรุปบทความเป็นย่อหน้าเดียว

เราได้จัดเก็บบทความต้นฉบับและสร้างข้อมูลสรุปไว้ในฐานข้อมูลเพื่อให้เข้าถึงได้ง่ายในทุกขั้นตอน

เลือกผู้ตัดสินเพื่อวิเคราะห์และให้คะแนนข้อมูลสรุป

ในการวิเคราะห์คุณภาพของข้อมูลสรุป เราใช้ Gemini 1.5 Flash เพื่อตัดสินข้อมูลสรุปที่ Gemma 2B และ Gemma 2 2B สร้างขึ้น แนวทางที่เฉพาะเจาะจงของเราอิงตามการปรับ ซึ่งเป็นส่วนหนึ่งของเมตริกการสรุปของ DeepEval

การปรับแนวคือเมตริกที่วัดความถี่ที่ข้อความที่รวมอยู่ในข้อมูลสรุปได้รับการสนับสนุนในเนื้อหาต้นฉบับที่ข้อมูลสรุปนั้นอิงตาม

เราได้แบ่งกระบวนการประเมินออกเป็น 2 ขั้นตอน ก่อนอื่น เราแจ้งให้โมเดลแบ่งข้อมูลสรุปแต่ละรายการออกเป็นข้อความแยกกัน จากนั้นเราแจ้งให้โมเดลระบุว่าข้อความแต่ละรายการได้รับการสนับสนุนจากข้อความต้นฉบับของบทความหรือไม่

ดึงข้อมูลคำสั่งจากข้อมูลสรุป

เราขอให้ Gemini 1.5 Flashแบ่งข้อความที่ยาวออกเป็นคำสั่งแยกต่างหาก เช่น

กองหลังของเอฟเวอร์ตันอย่าง David Weir ไม่ได้สนใจเรื่องฟุตบอลยุโรป แม้ว่าทีมของเขาจะรั้งอันดับ 2 ในพรีเมียร์ลีกหลังจากเอาชนะลิเวอร์พูล

Gemini 1.5 Flash จะแบ่งประโยคนี้ออกเป็นข้อความต่อไปนี้

"David Weir เล่นตำแหน่งกองหลังให้กับ Everton"
"ตอนนี้เอฟเวอร์ตันอยู่ในอันดับที่ 2 ของพรีเมียร์ลีก"
"เอฟเวอร์ตันชนะลิเวอร์พูลในการแข่งขันล่าสุด"
"David Weir ได้ลดการพูดคุยเกี่ยวกับ Everton ที่เล่นฟุตบอลยุโรป"

ตรวจสอบคำสั่ง

จากนั้นเราขอให้ Gemini 1.5 Flash วิเคราะห์ประโยคต้นฉบับเทียบกับข้อความที่แยก โมเดลจัดประเภทความถูกต้องของข้อความแต่ละรายการดังนี้

ใช่: ข้อความต้นฉบับสนับสนุนข้อความดังกล่าว
ไม่ ข้อความดังกล่าวขัดแย้งกับข้อความต้นฉบับ
Idk เราไม่สามารถยืนยันได้ว่าข้อความดังกล่าวได้รับการสนับสนุนหรือไม่ หรือขัดแย้งกับข้อความต้นฉบับหรือไม่

การวิเคราะห์ผลลัพธ์

กระบวนการนี้ส่งผลให้เกิดเมตริก 2 รายการที่สามารถใช้เปรียบเทียบรูปแบบได้ ดังนี้

การจัดแนว: โมเดลสร้างข้อมูลสรุปที่มีข้อความที่สนับสนุนโดยข้อความต้นฉบับบ่อยเพียงใด
ความสมบูรณ์: จํานวนข้อความโดยเฉลี่ยที่มีอยู่ในข้อมูลสรุปที่โมเดลสร้างขึ้น

แผนภูมิเปรียบเทียบความสมบูรณ์และการเชื่อมโยงของรูปแบบ — รูปที่ 1 การเปรียบเทียบ Gemma 2B, Gemma 2 2B และ Gemini 1.5 Flash ซึ่งทั้งหมดได้คะแนนดี

การจัดข้อความ

เราคำนวณความสอดคล้องโดยนับจำนวนข้อมูลสรุปที่มีข้อความอย่างน้อย 1 รายการที่ทําเครื่องหมายเป็น "ไม่" แล้วหารด้วยจํานวนข้อมูลสรุปทั้งหมด

โมเดล Gemini 1.5 Flash มีคะแนนการจัดวางสูงสุดที่มากกว่า 92% ซึ่งหมายความว่าเนื้อหามีความโดดเด่นตรงที่ยึดถือข้อเท็จจริงและหลีกเลี่ยงการพูดโกหก

Gemma 2 2B ได้คะแนน 78.64% ซึ่งถือว่าดี ซึ่งบ่งบอกถึงระดับความแม่นยำที่ดี ส่วน Gemma 2B เวอร์ชันเก่ามีคะแนนการจัดตำแหน่งต่ำกว่า ซึ่งหมายความว่ามีแนวโน้มที่จะรวมข้อมูลที่ข้อความต้นฉบับไม่รองรับ

ความหลากหลาย

เราคํานวณความหลากหลายของโมเดลโดยหาค่าเฉลี่ยของจํานวนข้อความที่โมเดลสร้างขึ้นสําหรับข้อมูลสรุปแต่ละรายการ

Gemma 2 2B มีคะแนนความสมบูรณ์สูงสุดที่ 9.1 ซึ่งบ่งบอกว่าข้อมูลสรุปมีรายละเอียดและประเด็นสำคัญมากกว่า นอกจากนี้ โมเดล Gemini 1.5 Flash ยังมีคะแนนความสมบูรณ์สูงเกิน 8.4 Gemma 2B มีคะแนนความหลากหลายต่ำกว่า ซึ่งบ่งชี้ว่าอาจไม่ได้เก็บข้อมูลสำคัญจากข้อความต้นฉบับมากนัก

บทสรุป

เราพบว่าโมเดลขนาดเล็กที่ทำงานฝั่งไคลเอ็นต์ได้ เช่น Gemma 2 2B สามารถสร้างเอาต์พุตที่มีคุณภาพยอดเยี่ยม แม้ว่าโมเดลที่ทำงานบนระบบคลาวด์ เช่น Gemini 1.5 Flash จะยอดเยี่ยมในการสร้างข้อมูลสรุปที่สอดคล้องกับบทความต้นฉบับและบรรจุข้อมูลจํานวนมาก แต่คุณควรพิจารณาความแตกต่างนี้ควบคู่ไปกับประสิทธิภาพของแอปพลิเคชัน ความต้องการด้านความเป็นส่วนตัวและความปลอดภัย รวมถึงคําถามอื่นๆ ที่คุณอาจถามเมื่อพิจารณาว่าจะสร้าง AI ฝั่งไคลเอ็นต์ หรือไม่

ความสามารถของกลุ่มโมเดล Gemma พัฒนาไปอย่างชัดเจน เนื่องจาก Gemma 2 2B สามารถสร้างสรุปที่สมบูรณ์และสอดคล้องกับเนื้อหามากกว่า Gemma 2B

ประเมิน Use Case

เอกสารนี้เป็นเพียงตัวอย่างคร่าวๆ ของสิ่งที่เป็นไปได้เมื่อใช้ LLM เป็นเทคนิคการตัดสิน แม้จะมีการสรุป แต่คุณก็ดูเมตริกเพิ่มเติมได้ และผลลัพธ์อาจแตกต่างกัน เช่น คุณอาจประเมินความครอบคลุมโดยใช้พรอมต์เพื่อระบุประเด็นสำคัญจากบทความ จากนั้นใช้พรอมต์อื่นเพื่อตรวจสอบว่าสรุปแต่ละรายการครอบคลุมประเด็นสำคัญเหล่านั้นหรือไม่

กรณีการใช้งานอื่นๆ เช่น การเขียนข้อความ การเขียนข้อความใหม่ หรือการสร้างข้อความที่เพิ่มการดึงข้อมูล (RAG) อาจให้ผลลัพธ์ที่แตกต่างกันสำหรับเมตริกเดียวกัน หรือควรใช้เมตริกอื่นๆ ในการประเมิน

เมื่อใช้แนวทางนี้ ให้พิจารณาว่ามนุษย์จะประเมินเอาต์พุตอย่างไรเพื่อพิจารณาว่าเมตริกใดเหมาะกับ Use Case ของคุณมากที่สุด นอกจากนี้ คุณยังควรพิจารณาเฟรมเวิร์กที่มีอยู่ เช่น DeepEval ซึ่งอาจมีชุดเมตริกที่เหมาะกับกรณีการใช้งานของคุณอยู่แล้ว

คุณใช้ LLM เป็นตัวตัดสินเพื่อประเมินโมเดลไหม ทวีตสิ่งที่พบให้เราทราบที่ @ChromiumDev หรือแชร์กับChrome สำหรับนักพัฒนาซอฟต์แวร์ใน LinkedIn