תודה שצפית ב-Google I/O! צפייה בתוכן על פי דרישה.

דף זה תורגם על ידי Cloud Translation API.

השוואה בין יכולות של מודלים גדולים של שפה לבין סיכום

André Cipriani Bandarra

Alexandra Klepper

תאריך פרסום: 30 באוקטובר 2024

פיתוח תכונות באמצעות מודלים גדולים של שפה (LLM) שונה מאוד מהנדסת תוכנה רגילה. מפתחים צריכים ללמוד את תכנון ההנחיות כדי לטפל בתוצאות לא ודאיות, בקלט של עיבוד מקדים ובתוצאות של עיבוד לאחרי.

אחד האתגרים ששיתפתם איתנו הוא שבדיקה של הפלט ממודלים מסוג LLM, וקביעת התוקף והאיכות שלו, דורשים זמן רב. מפתחים נוטים לעתים קרובות ליצור את הפלט ברצף באמצעות מקורות קלט שונים, ולאחר מכן לאמת אותם באופן ידני באמצעות שיקול דעת אנושי.

גישה גמישה יותר להערכת התוצאות של מודלים והנחיות שונים היא השיטה LLM בתור שופט. באמצעות השיטה הזו, במקום להסתמך על שיקול דעת אנושי, אימות המודל מופקד בידי LLM אחר. ה-LLM השני חייב להיות LLM גדול יותר שמבוסס על ענן, ויש לו סיכוי גבוה יותר ליכולות חשיבה טובות יותר.

במסמך הזה אנחנו משתמשים בסיכום כדי להמחיש איך אפשר להשוות בין מודלים שונים, וכבונוס, אנחנו מראים את השיפור באיכות מ-Gemma ל-Gemma 2.

בחירת מודלים להשוואה והכנת נתונים

בדקנו את היכולות של שלושה מודלים ביצירת סיכומים. השווינו בין התוצאות של שני מודלים פתוחים של Google שאפשר להריץ בצד הלקוח, Gemma ו-Gemma 2, שניהם בגודל של 2 מיליארד פרמטרים. לעומת זאת, בדקנו גם מודל גדול יותר מבוסס-ענן עם יכולות מתקדמות יותר: Gemini 1.5 Flash.

השתמשנו במערך נתונים של 2,225 מאמרים של BBC, שמכסים תחומים כמו עסקים, בידור, פוליטיקה, ספורט וטכנולוגיה, ויצרנו סיכום של כל מאמר באמצעות כל אחד מהמודלים שנבחרו. בכל הדגמים השתמשו באותה הנחיה:

לסכם את המאמר בפסקה אחת.

שמרתם את המאמרים המקוריים וליצורם סיכומים במסד נתונים, כדי שאפשר יהיה לגשת אליהם בקלות בכל שלב.

בחירת שופט/ת לניתוח הסיכומים ולמתן ציונים

כדי לנתח את איכות הסיכומים, השתמשנו ב-Gemini 1.5 Flash כדי לשפוט את הסיכומים שנוצרו על ידי Gemma 2B ו-Gemma 2 2B. הגישה הספציפית שלנו מבוססת על התאמה, שהיא חלק ממדד הסיכום של DeepEval.

התאמה הוא מדד שמודד את התדירות שבה ההצהרות הכלולות בסיכום נתמכות בתוכן המקורי שעליו מבוסס הסיכום.

פיצלנו את תהליך ההערכה לשני שלבים. קודם כל, הנחינו את המודל לפצל כל סיכום למשפטים נפרדים. לאחר מכן, ביקשנו מהמודל לקבוע אם כל הצהרה נתמכת בטקסט המקורי של הכתבה.

חילוץ הצהרה מסיכומים

ביקשנו מ-Gemini 1.5 Flash לפצל טקסט ארוך יותר להצהרות נפרדות. לדוגמה:

שחקן ההגנה של אברטון, דייוויד וייר, ביטל את האפשרות של הקבוצה להשתתף בכדורגל אירופי, למרות שהיא נמצאת במקום השני בפרמייר ליג אחרי שהביסה את ליברפול.

Gemini 1.5 Flash חילק את המשפט הזה להצהרות הבאות:

"David Weir plays defender for Everton"
"קבוצת אברטון נמצאת כרגע במקום השני בפרמיירליג".
"Everton beat Liverpool in a recent match"
"דייוויד וייר צמצם את הדיון על השתתפות אברטון בכדורגל האירופי".

אימות הצהרות

לאחר מכן ביקשנו מ-Gemini 1.5 Flash לנתח את המשפט המקורי, בהשוואה למשפטים המפוצלים. המודל סיווג את התוקף של כל טענה בתור:

כן: ההצהרה נתמכת בטקסט המקורי.
לא. ההצהרה סותרת את הטקסט המקורי.
Idk. אי אפשר לאמת אם ההצהרה נתמכת או אם היא מנוגדת לטקסט המקורי.

ניתוח התוצאות

התהליך הזה הניב שני מדדים שאפשר להשתמש בהם כדי להשוות בין המודלים:

התאמה: באיזו תדירות המודל יצר סיכומים שמכילים טענות שנתמכות בטקסט המקורי.
עשירות: המספר הממוצע של הצהרות שמופיעות בסיכום שנוצר על ידי המודל.

תרשים להשוואה בין עושר המודל לבין ההתאמה שלו. — איור 1. השוואה בין Gemma 2B,‏ Gemma 2 2B ו-Gemini 1.5 Flash, שכולן מניבות ציונים טובים.

יישור

כדי לחשב את מידת ההתאמה, ספרנו את מספר הסיכומים שבהם יש לפחות הצהרה אחת שמסומנת בתור 'לא', ומחלקנו אותו במספר הכולל של הסיכומים.

מודל Gemini 1.5 Flash הוא המודל עם ציוני ההתאמה הגבוהים ביותר, מעל 92%. כלומר, הוא מצליח מאוד להיצמד לעובדות ולהימנע מהמצאת דברים.

ל-Gemma 2 2B יש ציון גבוה של 78.64%, שמצביע על רמת דיוק טובה. לעומת זאת, לגרסה הקודמת של Gemma 2B יש ציון התאמה נמוך יותר, כלומר יש לה סיכוי גבוה יותר לכלול מידע שלא נתמך בטקסט המקורי.

עושר

כדי לחשב את עושר המודל, חישבנו את הממוצע של מספר ההצהרות שהמודל יצר לכל סיכום.

ל-Gemma 2 2B יש את ציון העשירות הגבוה ביותר, 9.1, שמציין שהסיכומים שלה כוללים יותר פרטים ונקודות מפתח. גם למודל Gemini 1.5 Flash יש ציונים גבוהים של עושר תוכן, מעל 8.4. ל-Gemma 2B היו ציונים נמוכים יותר של עושר, מה שמצביע על כך שהיא לא תצליח לתעד את כל המידע החשוב מהטקסט המקורי.

סיכום

הגענו למסקנה שמודלים קטנים יותר שאפשר להריץ בצד הלקוח, כמו Gemma 2 2B, יכולים ליצור פלט באיכות מעולה. מודלים מבוססי-ענן, כמו Gemini 1.5 Flash, מצטיינים ביצירת סיכומים שתואמים למאמר המקורי ומכילים כמות גדולה של מידע. עם זאת, צריך לשקול את ההבדל הזה לצד ביצועי האפליקציה, הצרכים שלכם בנושאי פרטיות ואבטחה ושאלות אחרות שיכולות לעזור לכם להחליט אם כדאי ליצור AI בצד הלקוח.

יש התפתחות ברורה ביכולות של משפחת המודלים של Gemma, כי Gemma 2 2B מסוגל ליצור סיכומים עשירים יותר ותואמים יותר מאשר Gemma 2B.

הערכת תרחישים לדוגמה

המסמך הזה הוא רק קצה הקרחון של מה שאפשר לעשות עם LLM כטכניקה לשיפוט. גם אחרי סיכום, אפשר להציג מדדים נוספים, והתוצאות עשויות להיות שונות. לדוגמה, אפשר להשתמש בהנחיה כדי לזהות נקודות מפתח במאמר, ואז להשתמש בהנחיה אחרת כדי לאמת אם כל הנקודות האלה מופיעות בכל סיכום.

בתרחישי שימוש אחרים, כמו כתיבת טקסט, כתיבה מחדש של טקסט או יצירה משופרת של אחזור (RAG), יכול להיות שתקבלו תוצאות שונות לאותו מדד, או שתצטרכו להשתמש במדדים אחרים לצורך הערכה.

כשמטמיעים את הגישה הזו, כדאי לחשוב איך אדם היה מעריך את הפלט כדי לקבוע אילו מדדים הכי מתאימים לתרחישי לדוגמה שלכם. כדאי גם לבדוק מסגרות קיימות, כמו DeepEval, שכבר יש בהן קבוצה של מדדים שמתאימים לתרחיש לדוגמה שלכם.

האם הטמעתם LLM בתור שופט להערכת מודלים? אתם יכולים לשלוח לנו את הממצאים שלכם בטוויטר ‎@ChromiumDev או לשתף אותם בקבוצה Chrome למפתחים ב-LinkedIn.