تاريخ النشر: 10 نوفمبر 2025
بعد الاطّلاع على مقالة الذكاء الاصطناعي المناسب، ستعرف أنّ النماذج الأصغر حجمًا أكثر استدامة من النماذج الأساسية. تستهلك هذه النماذج طاقة أقل ويمكن تشغيلها حتى على جهاز المستخدم، ما يقلّل من وقت الاستجابة ويوفّر تجربة أكثر فعالية.
عليك أن تكون دقيقًا وتختار النموذج المناسب لحالة الاستخدام.
ولكن كيف تحدّد النموذج الذي تحتاجه؟ أحد الأساليب هو تحديد مقاييس النجاح لتطبيقك، ثم إنشاء نموذج أولي باستخدام نموذج أساسي. في الآونة الأخيرة، كانت معظم النماذج الأساسية التي تم تناولها في الأخبار هي نماذج لغوية كبيرة، ولكن النماذج الأساسية تشمل أيضًا الذكاء الاصطناعي التوقعي، وهي نماذج متخصصة وقد تكون أكثر ملاءمة لحالة الاستخدام الخاصة بك.
بعد التحقّق من صحة مقاييس النجاح، يمكنك نشر نماذج أصغر حجمًا واختبارها إلى أن تجد أصغر نموذج ممكن يحقّق النتائج التي تستوفي معايير النجاح.
إنشاء نماذج أولية كبيرة ونشرها على نطاق صغير
لاختيار النموذج المناسب، اتّبِع الخطوات التالية:

- إثبات إمكانية تنفيذ مهمتك اختبِر ما إذا كان بإمكانك تحقيق هدفك باستخدام أكبر نموذج ممكن. وقد يكون نموذجًا لغويًا كبيرًا، مثل Gemini 2.5 Pro، أو نموذجًا أساسيًا آخر.
- تحديد معايير النجاح: اجمع مجموعة من المدخلات والمخرجات المثالية. على سبيل المثال، قد يتضمّن تطبيق ترجمة مدخلات عبارة باللغة الإنجليزية ومخرجات عبارة مترجمة بشكل صحيح إلى اللغة الإسبانية.
- الاختبار من صغير إلى كبير: قارِن بين نتائج النماذج الأصغر حجمًا ومعايير الاختبار. ابدأ بأصغر نموذج. يمكن أن تساعدك هندسة الطلبات في الحصول على نتائج أفضل. يمكنك أيضًا الاستعانة بنموذج أكبر لمقارنة النتائج، ما يساعدك في الحصول على نتيجة أفضل من النموذج الأصغر.
- اختَر أصغر نموذج يقدّم ردودًا مقبولة لحالة الاستخدام. على سبيل المثال، أصغر نموذج يعرض الترجمات بشكل صحيح.
بغض النظر عن مكان استضافة النموذج، سواء كان صغيرًا بما يكفي لتشغيله على الجهاز أو كان بحاجة إلى استضافته على خادم، من الأفضل استخدام نموذج أصغر حجمًا بدلاً من نموذج أكبر حجمًا.
أنواع النماذج
لقد صنّفتُ النماذج حسب البيانات التي تعالجها: المرئية والصوتية والنصية. سأشرح لك بعض الأمثلة على حالات الاستخدام وبعض النماذج المتاحة.
المعالجة المرئية
يمكن أن تكون المعالجة المرئية عبارة عن تقييم للصور الثابتة أو الفيديو.
تصنيف الصور: يمكن استخدام هذه الميزة في كل شيء، بدءًا من إنشاء نص بديل لضمان التوافق مع معايير تسهيل الاستخدام، ووصولاً إلى فحص المحتوى لفلترة الصور غير الملائمة قبل أن تصل إلى المستخدمين. اختَر تصنيف الصور هذا عندما تحتاج إلى فهم محتوى صورة بدون مراجعة من فريقنا.
الطُرز MobileNet وResNeXt وConvNeXt
رصد العناصر: يمكنك وضع علامات على عناصر معيّنة في الصور أو بث الفيديو، أو إنشاء تجارب واقع معزّز تفاعلية تستجيب للعناصر في العالم الحقيقي، أو إنشاء أنظمة لإدارة المستودع يمكنها تحديد العناصر وعدّها. اختَر ميزة "رصد العناصر" عندما تكون لديك صورة أو فيديو لعنصر غير حي.
النماذج نماذج رصد الأجسام، مثل YOLOv8 وDETR
رصد وضعية الجسم: تُستخدم للتحكّم في الواجهة باستخدام الإيماءات أو حركات الجسم، وتجارب ارتداء الملابس الافتراضية، ومنصات الرعاية الصحية عن بُعد التي تراقب حركة المريض ومدى تقدّمه في إعادة التأهيل. اختَر ميزة "رصد وضعية الجسم" عند تقييم صور أو فيديوهات لجسم شخص.
النماذج نماذج تقدير الوضعية، مثل MoveNet وBlazePose
رصد نقاط الوجه: تُستخدَم هذه الميزة في أنظمة المصادقة الآمنة للتعرّف على الوجوه، ورصد المشاعر لتخصيص تجارب المستخدمين، وتتبُّع حركة العين لتوفير عناصر تحكّم سهلة الاستخدام، وفلاتر الصور أو تطبيقات التجميل في الوقت الفعلي. اختَر هذا النموذج عند تقييم صور أو فيديوهات لوجه شخص.
النماذج MediaPipe FaceMesh وOpenPose
نماذج رصد وضعية اليد: تُستخدَم هذه النماذج في عناصر التحكّم في الواجهات التي لا تتطلّب اللمس، حيث يتنقّل المستخدمون باستخدام إيماءات اليد، وفي تطبيقات ترجمة لغة الإشارة لتسهيل الاستخدام، وفي الأدوات الإبداعية التي تستجيب لحركات اليد للرسم أو التصميم. ننصحك أيضًا باستخدامها في البيئات التي يصعب فيها لمس الشاشات (مثل البيئات الطبية أو خدمات الطعام) أو عندما يكون المستخدمون بعيدين عن عناصر التحكّم، مثل العروض التقديمية التي يتحكّم فيها المتحدثون في الشرائح باستخدام الإيماءات.
النماذج نماذج تقدير وضعية اليد، مثل MediaPipe Hands
التعرّف على الكتابة بخط اليد: تُستخدم لتحويل الملاحظات المكتوبة بخط اليد إلى نص رقمي قابل للبحث، ومعالجة الإدخالات باستخدام قلم الشاشة لتطبيقات تدوين الملاحظات، ورقمنة النماذج أو المستندات التي يحمّلها المستخدمون.
النماذج نماذج التعرّف البصري على الأحرف (OCR)، مثل MiniCPM-o وH2OVL-Mississippi وSurya
نماذج تقسيم الصور: اختَر هذا الخيار عندما تكون الخلفيات المتسقة للصور مهمة أو عندما يكون تعديل الصور مطلوبًا. على سبيل المثال، يمكنك استخدامها لإزالة الخلفية بدقة، وفحص المحتوى المتقدّم لتحديد مناطق معيّنة مثيرة للقلق في الصور، واستخدام أدوات متطورة لتعديل الصور من أجل عزل عناصر معيّنة، مثل صور الملف الشخصي وصور المنتجات.
النماذج Segment Anything (SAM)، وMask R-CNN
إنشاء الصور: يمكنك استخدام هذه الميزة لإنشاء صور جديدة عند الطلب بدون الحاجة إلى ترخيص. ويمكن استخدام هذه النماذج لإنشاء أفاتارات مخصّصة للملفات الشخصية للمستخدمين، وإنشاء أشكال مختلفة لصور المنتجات في كتالوجات التجارة الإلكترونية، وإنشاء صور مخصّصة لسير عمل التسويق أو صناعة المحتوى.
النماذج نماذج الانتشار، مثل Nano Banana وFlux وQwen Image
معالجة الصوت
اختَر نموذج معالجة صوتية للملفات الصوتية.
تصنيف المحتوى الصوتي: يُستخدم عندما يكون من الضروري تحديد المحتوى الصوتي ووصفه، بدون مراجعة من فريق المراجعين. على سبيل المثال، تحديد الموسيقى في الخلفية أو الأصوات المحيطة أو المحتوى المنطوق في الوسائط التي يتم تحميلها في الوقت الفعلي، ووضع علامات تلقائيًا على المحتوى في مكتبات الصوت، وعناصر التحكّم في واجهة المستخدم المستندة إلى الصوت
النماذج Wav2Vec2 وAudioMAE
إنشاء محتوى صوتي: يمكنك إنشاء محتوى صوتي عند الطلب بدون الحاجة إلى ترخيص. على سبيل المثال، يمكن استخدام هذه التكنولوجيات لإنشاء مؤثرات صوتية مخصّصة لتجارب الويب التفاعلية، وإنشاء موسيقى خلفية استنادًا إلى تفضيلات المستخدم أو المحتوى، وإنتاج عناصر خاصة بالعلامة التجارية الصوتية، مثل أصوات الإشعارات أو ملاحظات واجهة المستخدم.
النماذج: تتوفّر نماذج متخصّصة مختلفة لإنشاء المحتوى الصوتي. تميل هذه النماذج إلى أن تكون فائقة التخصّص، لذا لن أدرجها.
تحويل النص إلى كلام (TTS): يمكنك تحويل المحتوى المكتوب إلى كلام متسق وطبيعي لتلبية متطلبات تسهيل الاستخدام، وإنشاء تعليق صوتي للمحتوى التعليمي أو البرامج التعليمية، وإنشاء واجهات متعددة اللغات تتحدث بالنص باللغات المفضّلة لدى المستخدمين.
نماذج Orpheus وSesame CSM
تحويل الكلام إلى نص (STT): تحويل تسجيل للكلام البشري إلى نص، مثلاً، لإنشاء نسخ نصية في الوقت الفعلي للأحداث المباشرة أو الاجتماعات، وتوفير وظائف البحث والتنقّل التي يتم التحكّم فيها صوتيًا، وإنشاء ترجمة وشرح تلقائيين لمحتوى الفيديو لتسهيل الوصول إليه.
النماذج Whisper Web Turbo وNVIDIA Canary وKyutai
معالجة النصوص
تصنيف اللغات الطبيعية: يُستخدم لترتيب وتوجيه كميات كبيرة من النصوص وأنظمة وضع العلامات وأنظمة الإشراف تلقائيًا. يمكن أن يكون النص عبارة عن رسائل مستخدمين أو بطاقات دعم، ورصد المشاعر في ملاحظات العملاء أو الإشارات على وسائل التواصل الاجتماعي، وفلترة الرسائل غير المرغوب فيها أو المحتوى غير الملائم قبل أن يصل إلى المستخدمين الآخرين.
النماذج BERT وDistilBERT وRoBERTa
الذكاء الاصطناعي الحواري: يمكنك إنشاء واجهات محادثة وأنظمة حوارية. تُعدّ روبوتات الدردشة الخاصة بدعم العملاء ومساعدو الذكاء الاصطناعي الشخصيون والتفاعلات الحوارية المشابهة من أفضل حالات استخدام النماذج اللغوية الكبيرة. لحسن الحظ، تتوفّر نماذج لغوية صغيرة بما يكفي لتناسب جهازك، وتتطلّب طاقة أقل بكثير للتدريب والاستجابة للطلبات.
النماذج Gemma 2 27B وLlama 3.1 وQwen2.5
نماذج الترجمة: تُستخدَم لدعم لغات متعددة في تطبيقك. يمكن لنماذج اللغة المحلية التعامل مع ترجمة اللغة في الوقت الفعلي، وتحويل المحتوى الذي ينشئه المستخدمون إلى لغات متعددة على المنصات العالمية، وإتاحة ترجمة المستندات الخاصة التي تحافظ على المحتوى الحسّاس على جهاز المستخدم.
النماذج نماذج اللغات الصغيرة (SLM) مثل Gemma Nano وGranite 1.5B وGSmolLM3 وQwen 3.4B
قراءة قائمة المعلومات الغذائية

تستهلك النماذج المختلفة كميات متفاوتة من هذه الموارد عند تشغيلها على أجهزة مختلفة وفي مواقع مختلفة. لا يتوفّر بعد معيار قياس يمكن مقارنة الأداء به، ولكن هناك جهود لتضمين هذه المعلومات في "بطاقات البيانات الغذائية" الخاصة بالذكاء الاصطناعي.
بطاقات النماذج، التي قدّمتها مارغريت ميتشل وزملاؤها في Google عام 2018، هي أسلوب موحّد للإبلاغ عن الاستخدام المقصود للنماذج وقيودها والاعتبارات الأخلاقية وأدائها. تستخدم العديد من الشركات اليوم أحد أشكال بطاقات النماذج، بما في ذلك Hugging Face وMeta وMicrosoft.
مستندات حقائق الذكاء الاصطناعي من IBM، التي تغطي دورة الحياة والمساءلة والحوكمة والامتثال، هي أكثر شيوعًا في بيئات المؤسسات. تتطلّب أُطر العمل التنظيمية، مثل قانون الذكاء الاصطناعي في الاتحاد الأوروبي وإطار عمل إدارة المخاطر المتعلقة بالذكاء الاصطناعي الصادر عن المعهد الوطني للمعايير والتكنولوجيا (NIST) ومعيار ISO 42001، توفير هذه المستندات.
دعت Google إلى الشفافية في ما يتعلق بتكاليف الاستدلال في جميع أنحاء المجال. ويمكن إضافة هذه الأرقام إلى بطاقات النماذج وأوراق الحقائق. أضافت شركة Hugging Face تكاليف الكربون إلى بطاقات النماذج، وبذلت جهودًا لتوحيد مقياس كفاءة استهلاك الطاقة من خلال مبادرة "مقياس الطاقة للذكاء الاصطناعي".
الدعوة إلى استخدام الذكاء الاصطناعي المناسب
إنّ الذكاء الاصطناعي المناسب هو الخيار المستدام والفعّال والعملي لعملائك ولمؤسستك أيضًا.
يمكنك المساهمة في تطوير المجال من خلال مطالبة النماذج المستضافة التي تعتمدها شركتك بالإفصاح عن الحد الأدنى من متطلبات موارد التدريب والاستدلال. إذا طالب عدد كافٍ من العملاء بالشفافية، من المرجّح أن يقدّم مقدّمو الخدمات هذه التفاصيل.