مقارنة إمكانية النموذج اللغوي الكبير مع التلخيص

تاريخ النشر: 30 تشرين الأول (أكتوبر) 2024

يختلف إنشاء الميزات باستخدام النماذج اللغوية الكبيرة (LLM) اختلافًا كبيرًا عن هندسة البرامج التقليدية. على المطوّرين تعلُّم كيفية هندسة الطلبات من أجل التعامل مع النتائج غير الحتمية ومدخلات المعالجة المُسبَقة ونتائج المعالجة اللاحقة.

من بين التحديات التي شاركتها معنا هو أنّ اختبار النتائج من النماذج اللغوية الكبيرة وتحديد صلاحيتها وجودتها يستغرق وقتًا طويلاً. غالبًا ما يلجأ المطوّرون إلى إنشاء النتائج بشكل مجمّع باستخدام مدخلات مختلفة، ثم التحقّق منها يدويًا باستخدام أحكام بشرية.

إنّ تقنية استخدام النماذج اللغوية الكبيرة كمحكّم هي نهج أكثر قابلية للتوسّع لتقييم نتائج النماذج والطلبات المختلفة. باستخدام هذه الأسلوب، يتم تفويض عملية التحقّق من صحة النموذج إلى نموذج تعلُّم لغوي كبير آخر بدلاً من الاعتماد على أحكام البشر. يجب أن يكون النموذج اللغوي الكبير الثاني أكبر حجمًا ومستندًا إلى السحابة الإلكترونية، ومن المرجّح أن يكون لديه إمكانات تعلّم أفضل.

في هذا المستند، نستخدم التلخيص لشرح كيفية مقارنة النماذج المختلفة، وسنعرض أيضًا تحسين الجودة من Gemma إلى Gemma 2.

اختيار النماذج للمقارنة وإعداد البيانات

لقد قيّمنا قدرات ثلاثة نماذج في التلخيص. قارَنا بين نتائج نموذجَين من نماذج Google المفتوحة التي يمكن تشغيلها من جهة العميل، وهو Gemma و Gemma 2، وكلاهما بحجم 2 مليار مَعلمة. في المقابل، قيّمنا أيضًا نموذجًا أكبر وأكثر فعالية مستندًا إلى السحابة الإلكترونية: Gemini 1.5 Flash.

لقد استخدمنا مجموعة بيانات تتضمّن 2225 مقالة من BBC، تتناول مجالات مثل الأنشطة التجارية والترفيه والسياسة والرياضة والتكنولوجيا، وأنشأنا ملخّصًا لكل مقالة باستخدام كل نموذج من النماذج المحدّدة. تم استخدام الطلب نفسه في جميع النماذج:

تلخيص المقالة في فقرة واحدة

وخزّنا المقالات الأصلية وأنشأنا ملخّصات في قاعدة بيانات لكي يمكن الوصول إليها بسهولة في كل خطوة.

اختيار أحد الخبراء لتحليل الملخصات وتقييمها

لتحليل جودة الملخصات، استخدمنا الإصدار التجريبي من Gemini 1.5 لتقييم الملخصات التي أنشأتها نماذج Gemma 2B وGemma 2 2B. يستند نهجنا المحدّد إلى المواءمة، التي تشكّل جزءًا من مقياس التلخيص في DeepEval.

المحاذاة هو مقياس يقيس معدّل توفّر العبارة المضمّنة في الملخّص في المحتوى الأصلي الذي يستند إليه الملخّص.

تم تقسيم عملية التقييم إلى خطوتَين. أولاً، طلبنا من النموذج تقسيم كل ملخّص إلى عبارات منفصلة. بعد ذلك، طلبنا من النموذج تحديد ما إذا كان كلّ بيان متوافقًا مع نص المقالة الأصلي.

استخراج بيان من الملخّصات

طلبنا من Gemini 1.5 Flash تقسيم النص الطويل إلى عبارات منفصلة. على سبيل المثال:

قلل مدافع إيفرتون ديفيد وير من الحديث عن كرة القدم الأوروبية، على الرغم من أنّ فريقه يحتلّ المركز الثاني في الدوري الإنجليزي الممتاز بعد تغلبه على ليفربول.

قسم Gemini 1.5 Flash هذه الجملة إلى الجمل التالية:

  • "يلعب ديفيد وير مدافعًا في نادي إيفرتون".
  • "يحتلّ نادي إيفرتون حاليًا المركز الثاني في الدوري الإنجليزي الممتاز".
  • "فاز إيفرتون على ليفربول في مباراة حديثة".
  • "تجاهل ديفيد وير الحديث عن مشاركة إيفرتون في مباريات كرة القدم الأوروبية".

التحقّق من صحّة العبارات

بعد ذلك، طلبنا من Gemini 1.5 Flash تحليل الجملة الأصلية مقارنةً بتحليل الجمل المجزّأة. صنّف النموذج صحة كل عبارة على النحو التالي:

  • نعم: يتوفّر دليل على صحة العبارة في النص الأصلي.
  • لا، لأنّ البيان يتناقض مع النص الأصلي.
  • لا أعلم. لا يمكن التحقّق مما إذا كان البيان متوافقًا مع النص الأصلي أو يتعارض معه.

تحليل النتائج

أدّت هذه العملية إلى إنشاء مقياسَين يمكن استخدامهما لمقارنة النماذج:

  • المحاذاة: عدد المرات التي أنشأ فيها النموذج ملخّصات تحتوي على عبارات تستند إلى النص الأصلي
  • الثراء: متوسط عدد العبارات الواردة في ملخّص أنشأه النموذج.
رسم بياني يقارن بين كثافة النموذج ومواءمته
الشكل 1. مقارنة بين Gemma 2B وGemma 2 2B وGemini 1.5 Flash، والتي تحقّق كلّها نتائج جيدة

محاذاة

احتسبنا مدى المطابقة من خلال احتساب عدد الملخصات التي تحتوي على عبارة واحدة على الأقل تم وضع علامة "لا" عليها، وقسمة هذا العدد على إجمالي عدد الملخصات.

يحقّق نموذج Gemini 1.5 Flash أعلى نتائج المواءمة، والتي تتجاوز %92. وهذا يعني أنّه بارع جدًا في الالتزام بالحقائق وتجنّب اختلاق الحقائق.

تحقّق Gemma 2 2B نتيجة محترمة تبلغ %78.64، ما يشير إلى مستوى جيد من الدقة. في المقابل، يحصل الإصدار السابق من Gemma 2B على نتيجة أقل في ما يتعلّق بمحاذاة الكلمات، ما يعني أنّه أكثر عرضة لتضمين معلومات لا يتوافق معها النص الأصلي.

التنوع

احتسبنا ثراء النموذج من خلال احتساب متوسط عدد العبارات التي ينشئها النموذج لكل ملخّص.

تحقّق Gemma 2 2B أعلى نتيجة ثرية تبلغ 9.1، ما يشير إلى أنّ ملخّصاتها تتضمّن المزيد من التفاصيل والنقاط الرئيسية. يحقّق نموذج Gemini 1.5 Flash أيضًا علامات عالية في ما يتعلّق بالثراء، تتجاوز 8.4. حصلت Gemma 2B على نتائج أقل في ما يتعلق بمدى المحتوى، ما يشير إلى أنّها قد لا تلتقط قدرًا كبيرًا من المعلومات المهمة من النص الأصلي.

الخاتمة

تبيّن لنا أنّ النماذج الأصغر حجمًا التي يمكن تشغيلها من جهة العميل، مثل Gemma 2 2B، يمكنها إنشاء نتائج عالية الجودة. على الرغم من أنّ نماذج المعالجة المستندة إلى السحابة الإلكترونية، مثل Gemini 1.5 Flash، تُبرِز أداءً ممتازًا في إنشاء ملخّصات متوافقة مع المقالة الأصلية، وتضمّ قدرًا كبيرًا من المعلومات، يجب مراعاة الفرق بينها وبين نماذج المعالجة المستندة إلى الجهاز بجانب أداء التطبيق واحتياجات الخصوصية والأمان والأسئلة الأخرى التي قد تطرحها عند تحديد ما إذا كان عليك إنشاء ذكاء اصطناعي من جهة العميل.

هناك تطور واضح في إمكانات عائلة نماذج Gemma، إذ إنّ Gemma 2 2B قادرة على إنشاء ملخّصات أكثر ثراءً وانسجامًا من Gemma 2B.

تقييم حالات الاستخدام

لم يتناول هذا المستند سوى بعض الجوانب المتعلّقة بما يمكن تحقيقه باستخدام نماذج اللغة الضخمة كأحد أساليب التقييم. حتى مع التجميع، يمكنك الاطّلاع على مزيد من المقاييس وقد تختلف النتائج. على سبيل المثال، يمكنك تقييم التغطية باستخدام طلب لتحديد النقاط الرئيسية من مقالة، ثم استخدام طلب مختلف لمحاولة التحقّق مما إذا كان كل ملخّص يتضمّن هذه النقاط الرئيسية.

قد تؤدي حالات الاستخدام الأخرى، مثل كتابة نص أو إعادة كتابة نص أو إنشاء مُحسَّن لاسترداد المعلومات (RAG) إلى نتائج مختلفة للمقاييس نفسها أو قد يكون من الضروري استخدام مقاييس أخرى للتقييم.

عند تنفيذ هذا النهج، فكِّر في الطريقة التي سيقيّم بها أحد الأشخاص النتيجة لتحديد المقاييس الأفضل لحالات الاستخدام. من الجدير أيضًا الاطّلاع على الأطر الحالية، مثل DeepEval، التي قد تتضمّن مجموعة من المقاييس المناسبة لحالة الاستخدام.

هل نفّذت نموذج المحاكمة التوليدية كقاضي لتقييم النماذج؟ يمكنك إرسال تغريدة إلينا تتضمّن النتائج التي توصّلت إليها على ‎@ChromiumDev أو مشاركتها مع Chrome للمطوّرين على LinkedIn.