تاريخ النشر: 30 تشرين الأول (أكتوبر) 2024
يختلف إنشاء الميزات باستخدام النماذج اللغوية الكبيرة (LLM) اختلافًا كبيرًا عن هندسة البرامج التقليدية. يحتاج المطورون إلى تعلم الهندسة الفورية للتعامل مع النتائج غير الحتمية والمعالجة المسبقة للمدخلات ونتائج ما بعد المعالجة.
من بين التحديات التي شاركتها معنا هو أنّ اختبار النتائج من النماذج اللغوية الكبيرة وتحديد صلاحيتها وجودتها يستغرق وقتًا طويلاً. غالبًا ما يلجأ المطوّرون إلى إنشاء النتائج بشكل مجمّع باستخدام مدخلات مختلفة، ثم التحقّق منها يدويًا باستخدام أحكام بشرية.
إنّ تقنية استخدام النماذج اللغوية الكبيرة كمحكّم هي نهج أكثر قابلية للتوسّع لتقييم نتائج النماذج والطلبات المختلفة. باستخدام هذه الأسلوب، يتم تفويض عملية التحقّق من النموذج إلى نموذج تعلُّم لغوي كبير آخر بدلاً من الاعتماد على أحكام البشر. يجب أن يكون النموذج اللغوي الكبير الثاني أكبر حجمًا ومستندًا إلى السحابة الإلكترونية، ومن المرجّح أن يكون لديه إمكانات تعلّم أفضل.
في هذا المستند، نستخدم التلخيص لشرح كيفية مقارنة النماذج المختلفة، بالإضافة إلى عرض التحسين في الجودة من Gemma إلى Gemma 2.
اختيار النماذج للمقارنة وإعداد البيانات
لقد قيّمنا قدرات ثلاثة نماذج في التلخيص. قارَنا بين نتائج نموذجَين من نماذج Google المفتوحة التي يمكن تشغيلها من جهة العميل، وهو Gemma و Gemma 2، وكلاهما بحجم 2 مليار مَعلمة. على النقيض من ذلك، قيّمنا أيضًا نموذجًا أكبر حجمًا وأكثر فعالية مستندًا إلى السحابة الإلكترونية: Gemini 1.5 Flash.
لقد استخدمنا مجموعة بيانات تتضمّن 2225 مقالة من BBC، تتناول مجالات مثل الأنشطة التجارية والترفيه والسياسة والرياضة والتكنولوجيا، وأنشأنا ملخّصًا لكل مقالة باستخدام كل نموذج من النماذج المحدّدة. تم استخدام الطلب نفسه في جميع النماذج:
تلخيص المقالة في فقرة واحدة
وخزّنا المقالات الأصلية وأنشأنا ملخّصات في قاعدة بيانات لكي يسهل الوصول إليها في كل خطوة.
اختيار أحد الخبراء لتحليل الملخصات وتقييمها
لتحليل جودة الملخّص، استخدمنا Gemini 1.5 Flash لتقييم الملخّصات التي أنشأتها Gemma 2 وGemma 2 2B. يعتمد منهجنا المحدد على التوافق، الذي يُعد جزءًا من مقياس التلخيص في DeepEval.
المحاذاة هو مقياس يقيس معدّل توفّر العبارة المضمّنة في الملخّص في المحتوى الأصلي الذي يستند إليه الملخّص.
قسّمنا عملية التقييم إلى خطوتين. أولاً، طلبنا من النموذج تقسيم كل ملخّص إلى عبارات منفصلة. بعد ذلك، طلبنا من النموذج تحديد ما إذا كانت كل عبارة متوافقة مع نص المقالة الأصلي.
استخراج بيان من الملخّصات
طلبنا من Gemini 1.5 Flash تقسيم النص الطويل إلى عبارات منفصلة. على سبيل المثال:
قلل مدافع إيفرتون ديفيد وير من الحديث عن كرة القدم الأوروبية، على الرغم من أنّ فريقه يحتلّ المركز الثاني في الدوري الإنجليزي الممتاز بعد فوزه على ليفربول.
قسم Gemini 1.5 Flash هذه الجملة إلى الجمل التالية:
- "يلعب ديفيد وير مدافعًا في نادي إيفرتون".
- "يحتلّ نادي إيفرتون حاليًا المركز الثاني في الدوري الإنجليزي الممتاز".
- "فاز إيفرتون على ليفربول في مباراة حديثة".
- "تجاهل ديفيد وير الحديث عن مشاركة إيفرتون في مباريات كرة القدم الأوروبية".
التحقّق من صحّة العبارات
بعد ذلك، طلبنا من Gemini 1.5 Flash تحليل الجملة الأصلية مقارنةً ببياناتها المجزّأة. صنف النموذج صحة كل عبارة على النحو التالي:
- نعم: يتوفّر دليل على صحة العبارة في النص الأصلي.
- لا، لأنّ البيان يتناقض مع النص الأصلي.
- لا أعلم. لا يمكن التحقق مما إذا كانت العبارة مدعومة أو تتعارض مع النص الأصلي.
تحليل النتائج
أدّت هذه العملية إلى إنشاء مقياسَين يمكن استخدامهما لمقارنة النماذج:
- المحاذاة: يشير ذلك إلى عدد المرات التي أنشأ فيها النموذج ملخّصات تحتوي على عبارات تستند إلى النص الأصلي.
- الثراء: متوسط عدد العبارات الواردة في ملخّص أنشأه النموذج.
محاذاة
قمنا بحساب المحاذاة من خلال حساب عدد الملخصات التي تحتوي على عبارة واحدة على الأقل مميزة بـ "لا"، وقسمة هذا العدد على إجمالي عدد الملخصات.
يحقّق نموذج فلاش الإصدار 1.5 من Gemini أعلى نتائج محاذاة، وتتجاوز نسبة %92. هذا يعني أنّه بارع للغاية في الالتزام بالحقائق وتجنُّب اختلاق الأمور.
تحقّق Gemma 2 2B نتيجة محترمة تبلغ %78.64، ما يشير إلى مستوى جيد من الدقة. في المقابل، يحصل الإصدار السابق من Gemma 2B على نتيجة أقل في ما يتعلّق بمدى اتّساق الترجمة، ما يعني أنّه أكثر عرضة لتضمين معلومات لا يتوافق معها النص الأصلي.
التنوع
احتسبنا ثراء النموذج من خلال احتساب متوسط عدد العبارات التي ينشئها النموذج لكل ملخّص.
تحقّق Gemma 2 2B أعلى نتيجة ثراء تبلغ 9.1، ما يشير إلى أنّ ملخّصاتها تتضمّن المزيد من التفاصيل والنقاط الرئيسية. يحصل نموذج Gemini 1.5 Flash أيضًا على علامات عالية في ما يتعلّق بالثراء، حيث تتجاوز 8.4. سجّلت Gemma 2B نتائج أقلّ في ما يتعلّق بمدى الدقّة، ما يشير إلى أنّه قد لا يتم تسجيل قدر كبير من المعلومات المهمة من النص الأصلي.
الخاتمة
تبيّن لنا أنّ النماذج الأصغر حجمًا التي يمكن تشغيلها من جهة العميل، مثل Gemma 2 2B، يمكنها إنشاء نتائج عالية الجودة. على الرغم من أنّ نماذج المعالجة المستندة إلى السحابة الإلكترونية، مثل Gemini 1.5 Flash، تتفوّق في إنشاء ملخّصات متوافقة مع المقالة الأصلية، وتضمّ قدرًا كبيرًا من المعلومات، يجب موازنة الاختلافات مع أداء التطبيق واحتياجات الخصوصية والأمان والأسئلة الأخرى التي قد تطرحها عند تحديد ما إذا كان عليك إنشاء ذكاء اصطناعي من جهة العميل.
هناك تطور واضح في إمكانات عائلة نماذج Gemma، إذ يمكن لنموذج Gemma 2 2B إنشاء ملخّصات أكثر شمولاً وانسجامًا من Gemma 2B.
تقييم حالات الاستخدام
لم يتناول هذا المستند سوى بعض الجوانب المتعلّقة بما يمكن تحقيقه باستخدام نماذج اللغة الضخمة كأحد أساليب التقييم. حتى مع التجميع، يمكنك الاطّلاع على مزيد من المقاييس وقد تختلف النتائج. على سبيل المثال، يمكنك تقييم التغطية باستخدام طلب لتحديد النقاط الرئيسية من مقالة، ثم استخدام طلب مختلف لمحاولة التحقّق مما إذا كان كل ملخّص يتضمّن هذه النقاط الرئيسية.
قد تؤدي حالات الاستخدام الأخرى، مثل كتابة النص أو إعادة كتابة النص أو الإنشاء المعزز للاسترجاع (RAG)، إلى نتائج مختلفة للمقاييس نفسها، أو يجب استخدام مقاييس أخرى للتقييم.
عند تنفيذ هذا النهج، فكِّر في الطريقة التي سيقيّم بها أحد الأشخاص النتيجة لتحديد المقاييس الأفضل لحالات الاستخدام. من الجدير أيضًا الاطّلاع على الأطر الحالية، مثل DeepEval، التي قد تتضمّن مجموعة من المقاييس المناسبة لحالة الاستخدام.
هل نفّذت نموذج المحاكمة التوليدية كمحكّم لتقييم النماذج؟ يُرجى تغريدتنا على النتائج على @ChromiumDev أو مشاركتها مع Chrome للمطوّرين على LinkedIn.