منتشر شده: ۱۰ نوامبر ۲۰۲۵
وقتی در مورد هوش مصنوعی با اندازه مناسب مطالعه کرده باشید، میدانید که مدلهای کوچکتر نسبت به مدلهای پایه پایدارتر هستند. آنها انرژی کمتری مصرف میکنند و حتی میتوانند روی دستگاه کاربر اجرا شوند، تأخیر را کاهش دهند و تجربهای با عملکرد بهتر ارائه دهند.
شما باید هدفمند باشید و مدل مناسبی را برای مورد استفاده خود انتخاب کنید.
اما چگونه تعیین میکنید که به چه مدلی نیاز دارید؟ یک رویکرد این است که معیارهای موفقیت برنامه خود را تعیین کنید، سپس با یک مدل پایه، نمونه اولیه بسازید. در حالی که اخیراً، بسیاری از مدلهای پایه در اخبار ، مدلهای زبان بزرگ (LLM) هستند، مدلهای پایه شامل هوش مصنوعی پیشبینیکننده نیز میشوند که تخصصی هستند و ممکن است برای مورد استفاده شما مناسبتر باشند.
پس از اعتبارسنجی معیارهای موفقیت، با مدلهای کوچکتر مستقر شوید و آزمایش کنید تا کوچکترین مدل ممکن را پیدا کنید که نتایجی مطابق با معیارهای موفقیت شما تولید کند.
نمونه اولیه بزرگ، استقرار کوچک
برای انتخاب مدل با اندازه مناسب، این مراحل را دنبال کنید:

- ثابت کنید که وظیفه شما امکانپذیر است . با استفاده از بزرگترین مدل ممکن، آزمایش کنید که آیا کاری که میخواهید انجام دهید اصلاً امکانپذیر است یا خیر. این میتواند یک مدل زبان بزرگ مانند Gemini 2.5 Pro یا یک مدل پایه دیگر باشد.
- معیارهای موفقیت را تعیین کنید . مجموعهای از ورودیها و خروجیهای ایدهآل را جمعآوری کنید. برای مثال، یک برنامه ترجمه ممکن است ورودیهایی از عبارات به زبان انگلیسی و خروجیهایی از آن عبارات داشته باشد که به درستی به اسپانیایی ترجمه شدهاند.
- از کوچک به بزرگ تست کنید . خروجی مدلهای کوچکتر را با معیارهای تست خود مقایسه کنید. از کوچکترین مدل به سمت بالا حرکت کنید. مهندسی سریع میتواند به شما در دستیابی به نتایج بهتر کمک کند. همچنین میتوانید از یک مدل بزرگتر برای مقایسه خروجیها استفاده کنید تا به شما در تولید نتیجه بهتر از مدل کوچکترتان کمک کند.
- کوچکترین مدلی را انتخاب کنید که پاسخهای قابل قبولی برای مورد استفاده شما ارائه میدهد. به عنوان مثال، کوچکترین مدلی که ترجمهها را به درستی خروجی میدهد.
صرف نظر از محل میزبانی مدل، اگر به اندازه کافی کوچک باشد که بتوان آن را روی دستگاه قرار داد یا هنوز نیاز به میزبانی روی سرور داشته باشد، استفاده از یک مدل کوچکتر نسبت به یک مدل بزرگتر کارآمدتر است.
انواع مدل
من مدلها را بر اساس دادههایی که پردازش میکنند دستهبندی کردهام: بصری ، صوتی و متنی . در ادامه مثالهایی از موارد استفاده و برخی از مدلهای موجود را برای شما شرح خواهم داد.
پردازش بصری
پردازش بصری میتواند ارزیابی تصاویر ثابت یا ویدیو باشد.
طبقهبندی تصویر : از تولید متن جایگزین برای رعایت دسترسیپذیری گرفته تا غربالگری محتوا برای فیلتر کردن تصاویر نامناسب قبل از رسیدن به دست کاربران، از این طبقهبندی تصویر استفاده کنید. این طبقهبندی تصویر را زمانی انتخاب کنید که نیاز دارید بدون بررسی انسانی، محتوای یک تصویر را بفهمید.
مدلهای MobileNet، ResNeXt و ConvNeXt
تشخیص اشیا : اشیاء خاص را در تصاویر یا جریانهای ویدیویی برچسبگذاری کنید، تجربیات تعاملی واقعیت افزوده ایجاد کنید که به اشیاء دنیای واقعی پاسخ میدهند، یا سیستمهای مدیریت موجودی بسازید که بتوانند اقلام را شناسایی و شمارش کنند. وقتی تصویر یا ویدیویی از یک شیء بیجان دارید، تشخیص اشیا را انتخاب کنید.
مدلهای تشخیص شیء، مانند YOLOv8 و DETR
تشخیص حالت بدن : برای کنترل رابط کاربری با حرکات یا اشارات بدن، تجربههای پرو مجازی لباس و پلتفرمهای سلامت از راه دور که حرکت بیمار و پیشرفت توانبخشی را رصد میکنند، استفاده میشود. هنگام ارزیابی تصاویر یا ویدیوهای بدن یک فرد، تشخیص حالت بدن را انتخاب کنید.
مدلهای تخمین حالت بدن، مانند MoveNet و BlazePose
تشخیص نقاط کلیدی چهره : برای سیستمهای احراز هویت چهره امن، تشخیص احساسات برای شخصیسازی تجربیات کاربر، ردیابی حرکات چشم برای کنترلهای قابل دسترس و فیلترهای عکس یا برنامههای زیبایی در لحظه استفاده میشود. هنگام ارزیابی تصاویر یا ویدیوهای چهره یک فرد، این مدل را انتخاب کنید.
مدلهای MediaPipe FaceMesh و OpenPose
مدلهای تشخیص حالت دست : از این مدلها برای کنترلهای رابط کاربری بدون لمس که در آن کاربران با حرکات دست پیمایش میکنند، برنامههای ترجمه زبان اشاره برای دسترسیپذیری و ابزارهای خلاقانهای که به حرکات دست برای نقاشی یا طراحی پاسخ میدهند، استفاده کنید. همچنین، استفاده از این مدلها را در محیطهایی که لمس صفحه نمایش عملی نیست (پزشکی، خدمات غذایی) یا زمانی که کاربران از کنترلها دور هستند، مانند ارائههایی که سخنرانان اسلایدها را با حرکات کنترل میکنند، در نظر بگیرید.
مدلهای تخمین حالت دست، مانند مدلهای دست MediaPipe.
تشخیص دستخط : برای تبدیل یادداشتهای دستنویس به متن دیجیتال قابل جستجو، پردازش ورودی قلم برای برنامههای یادداشتبرداری و دیجیتالی کردن فرمها یا اسناد آپلود شده توسط کاربران استفاده میشود.
مدلهای تشخیص نوری کاراکتر (OCR)، مانند MiniCPM-o، H2OVL-Mississippi و Surya.
مدلهای تقسیمبندی تصویر : زمانی که پسزمینههای ثابت تصویر مهم هستند یا ویرایش تصویر مورد نیاز است، این مدلها را انتخاب کنید. به عنوان مثال، میتوانید از این مدلها برای حذف دقیق پسزمینه، غربالگری پیشرفته محتوا برای شناسایی نواحی خاص مورد توجه در تصاویر و ابزارهای پیشرفته ویرایش عکس برای جداسازی عناصر خاص، مانند عکسهای پروفایل و محصول، استفاده کنید.
مدلها هر چیزی را بخشبندی میکنند (SAM)، ماسک R-CNN
تولید تصویر : برای ایجاد تصاویر جدید بر اساس تقاضا، بدون نیاز به مجوز استفاده میشود. این مدلها میتوانند برای ایجاد آواتارهای شخصیسازیشده برای پروفایلهای کاربر، تغییر تصویر محصول برای کاتالوگهای تجارت الکترونیک و تصاویر سفارشی برای بازاریابی یا گردشهای کاری تولید محتوا استفاده شوند.
مدلهای انتشار، مانند Nano Banana، Flux و Qwen Image
پردازش صدا
یک مدل پردازش صدا برای فایلهای صوتی انتخاب کنید.
طبقهبندی صدا : زمانی استفاده میشود که صدا نیاز به شناسایی و توصیف داشته باشد، بدون بررسی انسانی. به عنوان مثال، شناسایی بلادرنگ موسیقی پسزمینه، صداهای محیطی یا محتوای گفتاری در آپلودهای رسانهای، برچسبگذاری خودکار محتوا برای کتابخانههای صوتی و کنترلهای رابط کاربری مبتنی بر صدا.
مدلهای Wav2Vec2 و AudioMAE
تولید صدا : ایجاد محتوای صوتی بر اساس تقاضا بدون نیاز به مجوز. به عنوان مثال، این میتواند برای ایجاد جلوههای صوتی سفارشی برای تجربیات تعاملی وب، تولید موسیقی پس زمینه از تنظیمات یا محتوای کاربر و تولید عناصر برندسازی صوتی مانند صداهای اعلان یا بازخورد رابط کاربری استفاده شود.
مدلها مدلهای تولید صدای تخصصی مختلفی وجود دارد. این مدلها بسیار خاص هستند، بنابراین من مدلها را فهرست نمیکنم.
تبدیل متن به گفتار (TTS) : تبدیل محتوای نوشتاری به گفتار طبیعی و سازگار برای رعایت دسترسیپذیری، ایجاد روایت صوتی برای محتوای آموزشی یا آموزشها و ساخت رابطهای چندزبانه که متن را به زبانهای دلخواه کاربران بیان میکنند.
مدلهای Orpheus و Sesame CSM
تبدیل گفتار به متن (STT) : رونویسی صدای ضبط شده انسان، مانند رونویسی همزمان برای رویدادهای زنده یا جلسات، قابلیت ناوبری و جستجوی کنترلشده با صدا و زیرنویس خودکار برای دسترسی به محتوای ویدیویی.
مدلهای Whisper Web Turbo، NVIDIA Canary و Kyutai
پردازش متن
طبقهبندی زبان طبیعی (NLP) : برای مرتبسازی و مسیریابی خودکار حجم زیادی از متن، سیستمهای برچسبگذاری و سیستمهای مدیریت استفاده میشود. متن میتواند پیامهای کاربر یا تیکتهای پشتیبانی باشد، احساسات را در بازخورد مشتری یا منشنهای رسانههای اجتماعی تشخیص دهد و هرزنامه یا محتوای نامناسب را قبل از رسیدن به سایر کاربران فیلتر کند.
مدلهای BERT، DistilBERT و Roberta
هوش مصنوعی محاورهای : رابطهای چت و سیستمهای محاورهای بسازید. چتباتهای پشتیبانی مشتری، دستیاران شخصی هوش مصنوعی و تعاملات محاورهای مشابه، برخی از بهترین موارد استفاده برای LLMها هستند. خوشبختانه، مدلهای زبانی به اندازه کافی کوچک هستند که روی دستگاه شما جا میشوند و به انرژی بسیار کمتری برای آموزش و راهنمایی نیاز دارند.
مدلهای Gemma 2 27B، Llama 3.1 و Qwen2.5
مدلهای ترجمه برای پشتیبانی از چندین زبان در برنامه شما استفاده میشوند. مدلهای زبان محلی میتوانند ترجمه زبان را در زمان واقعی انجام دهند، محتوای تولید شده توسط کاربر را به چندین زبان برای پلتفرمهای جهانی تبدیل کنند و ترجمه اسناد خصوصی را فعال کنند که محتوای حساس را در دستگاه کاربر نگه میدارد.
مدلهای SLM مانند Gemma Nano، Granite 1.5B، GSmolLM3 و Qwen 3.4B
برچسب تغذیهای را بخوانید

مدلهای مختلف هنگام اجرا روی سختافزارهای مختلف در مکانهای مختلف، مقادیر متفاوتی از این منابع را مصرف میکنند. هنوز استاندارد اندازهگیری برای سنجش وجود ندارد، اما حرکتی برای درج این اطلاعات روی «برچسبهای تغذیهای» هوش مصنوعی در حال انجام است.
کارتهای مدل ، که توسط مارگارت میچل و همکارانش در گوگل در سال ۲۰۱۸ معرفی شدند، یک رویکرد استاندارد برای گزارش کاربرد مورد نظر، محدودیتها، ملاحظات اخلاقی و عملکرد مدلها هستند. امروزه بسیاری از شرکتها از نوعی کارت مدل استفاده میکنند، از جمله Hugging Face، Meta، Microsoft.
برگههای اطلاعات هوش مصنوعی IBM که چرخه عمر، پاسخگویی، حاکمیت و انطباق را پوشش میدهند، در محیطهای سازمانی محبوبیت بیشتری دارند. چارچوبهای نظارتی، مانند قانون هوش مصنوعی اتحادیه اروپا، چارچوب مدیریت ریسک هوش مصنوعی NIST و ISO 42001، این مستندات را الزامی میدانند.
گوگل خواستار شفافیت هزینههای استنتاج در سراسر صنعت شد. این ارقام میتوانند به کارتهای مدل و برگههای اطلاعات اضافه شوند. هاگینگ فیس هزینههای کربن را به کارتهای مدل خود اضافه کرده است و آنها تلاشهایی برای استانداردسازی اندازهگیری بهرهوری انرژی با ابتکار امتیاز انرژی هوش مصنوعی انجام دادهاند.
طرفدار هوش مصنوعی با اندازه مناسب باشید
هوش مصنوعی با اندازه مناسب، انتخابی پایدار، کارآمد و عملگرا برای مشتریان و همچنین کسب و کار شماست.
شما میتوانید با الزام مدلهای میزبانیشدهای که شرکت شما اتخاذ میکند به افشای آموزش پایه و الزامات منابع استنتاج، صنعت را به جلو سوق دهید. اگر مشتریان کافی خواستار شفافیت باشند، ارائهدهندگان احتمالاً این جزئیات را منتشر خواهند کرد.