בחירת מודל קטן ויעיל

תאריך פרסום: 10 בנובמבר 2025

אחרי שתקראו על AI בהתאמה אישית, תבינו שמודלים קטנים יותר הם ברי-קיימא יותר ממודלים בסיסיים. הן צורכות פחות אנרגיה ואפשר אפילו להריץ אותן במכשיר של המשתמש, וכך לצמצם את זמן האחזור ולספק חוויה יעילה יותר.

צריך לבחור את המודל המתאים לתרחיש השימוש שלכם.

אבל איך קובעים איזה דגם צריך? אחת הגישות היא לקבוע את מדדי ההצלחה של האפליקציה, ואז ליצור אב טיפוס באמצעות מודל בסיסי. לאחרונה, הרבה מהמודלים הבסיסיים שמוזכרים בחדשות הם מודלים גדולים של שפה (LLM), אבל מודלים בסיסיים כוללים גם AI חיזוי, שהם מודלים מיוחדים ועשויים להתאים יותר לתרחיש השימוש שלכם.

אחרי שמאמתים את מדדי ההצלחה, כדאי לפרוס מודלים קטנים יותר ולבדוק עד שמגיעים למודל הכי קטן שאפשר שמניב תוצאות שעומדות בקריטריונים להצלחה.

יצירת אב טיפוס גדול, פריסה קטנה

כדי לבחור את המודל המתאים ביותר:

  1. מוכיחים שהמשימה אפשרית. כדי לבדוק אם מה שאתם מנסים לעשות אפשרי בכלל, כדאי להשתמש במודל הכי גדול שאפשר. יכול להיות שמדובר במודל שפה גדול, כמו Gemini 2.5 Pro, או במודל בסיסי אחר.
  2. הגדרת קריטריונים להצלחה. לאסוף קבוצה של קלטים ופלטים אידיאליים. לדוגמה, אפליקציית תרגום יכולה לקבל קלט של ביטויים באנגלית ולתת פלט של אותם ביטויים שתורגמו נכון לספרדית.
  3. כדאי להתחיל בבדיקה של שינויים קטנים ולהמשיך לשינויים גדולים יותר. משווים את התוצאות של מודלים קטנים יותר לקריטריונים של הבדיקה. מתחילים עם המודל הכי קטן. הנדסת הנחיות יכולה לעזור לכם לקבל תוצאות טובות יותר. אפשר גם להשתמש במודל גדול יותר כדי להשוות את התוצאות, וכך לשפר את התוצאה של המודל הקטן יותר.
  4. בוחרים את המודל הקטן ביותר שמספק תשובות מקובלות לתרחיש השימוש שלכם. לדוגמה, המודל הכי קטן שמפיק תרגומים בצורה נכונה.

לא משנה איפה המודל מתארח, אם הוא קטן מספיק כדי להיות במכשיר או שהוא עדיין צריך להתארח בשרת, עדיף להשתמש במודל קטן יותר מאשר במודל גדול יותר.

סוגי מודלים

סיווגתי את המודלים לפי הנתונים שהם מעבדים: חזותיים, אודיו וטקסט. אציג לכם תרחישים לדוגמה ודוגמאות למודלים שזמינים לשימוש.

עיבוד חזותי

עיבוד חזותי יכול להיות הערכה של תמונות סטילס או סרטונים.

  • סיווג תמונות: אפשר להשתמש בסיווג תמונות לכל דבר, החל מיצירת טקסט חלופי לצורך עמידה בדרישות הנגישות, ועד לסינון תוכן כדי לסנן תמונות לא הולמות לפני שהן מגיעות למשתמשים. בוחרים בסיווג התמונות הזה כשרוצים להבין מה יש בתמונה, בלי בדיקה אנושית.

    מודלים MobileNet,‏ ResNeXt ו-ConvNeXt

  • זיהוי אובייקטים: תיוג אובייקטים ספציפיים בתמונות או בסטרימינג של סרטונים, יצירת חוויות מציאות רבודה אינטראקטיביות שמגיבות לאובייקטים בעולם האמיתי או בניית מערכות לניהול מלאי שיכולות לזהות ולספור פריטים. בוחרים באפשרות 'זיהוי אובייקטים' אם יש לכם תמונה או סרטון של אובייקט דומם.

    מודלים מודלים לזיהוי אובייקטים, כמו YOLOv8 ו-DETR

  • זיהוי תנוחת הגוף: משמש לשליטה בממשק באמצעות מחוות או תנועות גוף, להתנסות וירטואלית במדידת בגדים ולפלטפורמות של רפואה טלפונית למעקב אחר תנועות המטופלים והתקדמות השיקום שלהם. כדאי לבחור באפשרות 'זיהוי תנוחת הגוף' כשמעריכים תמונות או סרטונים של גוף האדם.

    מודלים של הערכת תנוחות, כמו MoveNet ו-BlazePose

  • זיהוי נקודות מרכזיות בפנים: אפשר להשתמש בטכנולוגיה הזו במערכות מאובטחות לאימות פנים, בזיהוי רגשות להתאמה אישית של חוויות המשתמש, במעקב אחרי תנועות עיניים לצורך אמצעי בקרה נגישים ובמסנני תמונות או באפליקציות לשיפור המראה בזמן אמת. בוחרים במודל הזה כשמעריכים תמונות או סרטונים של פנים של אדם.

    Models MediaPipe FaceMesh ו-OpenPose

  • מודלים לזיהוי תנוחות ידיים: אפשר להשתמש במודלים האלה לממשקי משתמש ללא מגע שבהם המשתמשים מנווטים באמצעות תנועות ידיים, לאפליקציות לתרגום שפת הסימנים לצורכי נגישות ולכלים יצירתיים שמגיבים לתנועות ידיים לצורך ציור או עיצוב. כדאי גם להשתמש בהם בסביבות שבהן לא מעשי לגעת במסכים (רפואה, שירותי מזון) או כשהמשתמשים יהיו רחוקים מהאמצעים לשליטה, כמו מצגות שבהן הדוברים שולטים בשקפים באמצעות מחוות.

    מודלים מודלים להערכת תנוחת היד, כמו MediaPipe Hands.

  • זיהוי כתב יד: משמש להמרת הערות בכתב יד לטקסט דיגיטלי שאפשר לחפש בו, לעיבוד קלט של עט סטיילוס באפליקציות לסיכום פגישות ולהפיכת טפסים או מסמכים שהמשתמשים העלו לדיגיטליים.

    מודלים של זיהוי תווים אופטי (OCR), כמו MiniCPM-o,‏ H2OVL-Mississippi ו-Surya.

  • מודלים של פילוח תמונות: בוחרים באפשרות הזו כשחשוב להשתמש ברקעים עקביים לתמונות או כשצריך לערוך תמונות. לדוגמה, אפשר להשתמש בהם כדי להסיר רקעים בצורה מדויקת, לבצע סינון מתקדם של תוכן כדי לזהות אזורים ספציפיים שמעוררים חשש בתמונות, ולהשתמש בכלים מתקדמים לעריכת תמונות כדי לבודד רכיבים מסוימים, כמו תמונות פרופיל ותמונות מוצרים.

    מודלים Segment Anything (SAM), ‏ Mask R-CNN

  • יצירת תמונות: אפשר להשתמש בתכונה הזו כדי ליצור תמונות חדשות על פי דרישה, ללא צורך ברישוי. אפשר להשתמש במודלים האלה כדי ליצור אווטרים מותאמים אישית לפרופילי משתמשים, וריאציות של תמונות מוצרים לקטלוגים של מסחר אלקטרוני, ופריטים ויזואליים מותאמים אישית לתהליכי עבודה של שיווק או יצירת תוכן.

    מודלים מודלים של דיפוזיה, כמו Nano Banana,‏ Flux ו-Qwen Image

עיבוד אודיו

בחירת מודל לעיבוד אודיו לקובצי אודיו.

  • סיווג אודיו: שימוש כשצריך לזהות ולתאר אודיו, ללא בדיקה אנושית. לדוגמה, זיהוי בזמן אמת של מוזיקת רקע, צלילים סביבתיים או תוכן מדובר בהעלאות של מדיה, תיוג אוטומטי של תוכן בספריות אודיו ובקרות של ממשק משתמש מבוסס-צליל.

    מודלים Wav2Vec2 ו-AudioMAE

  • יצירת אודיו: יצירת תוכן אודיו על פי דרישה ללא רישוי. לדוגמה, אפשר להשתמש ב-MusicFX כדי ליצור אפקטים קוליים בהתאמה אישית לחוויית אינטרנט אינטראקטיבית, ליצור מוזיקת רקע מתוך העדפות משתמש או תוכן, וליצור אלמנטים של מיתוג אודיו כמו צלילי התראות או משוב בממשק.

    מודלים יש מודלים שונים ליצירת אודיו. המודלים האלה בדרך כלל ספציפיים מאוד, ולכן לא אפרט אותם.

  • המרת טקסט לדיבור (TTS): המרת תוכן כתוב לדיבור עקבי שנשמע טבעי, כדי לעמוד בדרישות הנגישות, ליצור קריינות לתוכן חינוכי או למדריכים, ולבנות ממשקים רב-לשוניים שמדברים טקסט בשפות המועדפות על המשתמשים.

    Models Orpheus and Sesame CSM

  • המרת דיבור לטקסט (STT): תמלול הקלטה של דיבור אנושי, למשל תמלול בזמן אמת לאירועים או לפגישות בשידור חי, ניווט מבוסס-קול ופונקציונליות של חיפוש, ויצירת כתוביות אוטומטיות לתוכן וידאו לצורך נגישות.

    Models Whisper Web Turbo, NVIDIA Canary, and Kyutai

עיבוד טקסט

  • סיווג שפה טבעית (NLP): משמש למיון אוטומטי של כמויות גדולות של טקסט, מערכות תיוג ומערכות ניהול, ולהפניית הטקסטים למקומות הנכונים. הטקסט יכול להיות הודעות של משתמשים או כרטיסי תמיכה, לזהות סנטימנט במשוב של לקוחות או באזכורים ברשתות החברתיות, ולסנן ספאם או תוכן לא הולם לפני שהוא מגיע למשתמשים אחרים.

    מודלים BERT,‏ DistilBERT ו-RoBERTa

  • AI בממשק שיחה: פיתוח ממשקי צ'אט ומערכות לניהול שיחות. צ'אטבוטים לתמיכת לקוחות, עוזרים אישיים מבוססי-AI ואינטראקציות דומות של שיחות הם חלק מתרחישי השימוש הטובים ביותר ל-LLM. למרבה המזל, יש מודלים של שפה שהם קטנים מספיק כדי להתאים למכשיר שלכם, ונדרשת הרבה פחות אנרגיה כדי לאמן אותם ולתת להם הנחיות.

    מודלים Gemma 2 27B,‏ Llama 3.1 ו-Qwen2.5

  • מודלים של תרגום משמשים לתמיכה בכמה שפות באפליקציה. מודלים מקומיים של שפה יכולים לטפל בתרגום שפה בזמן אמת, להמיר תוכן שנוצר על ידי משתמשים בכמה שפות עבור פלטפורמות גלובליות, ולאפשר תרגום פרטי של מסמכים ששומר תוכן רגיש במכשיר של המשתמש.

    מודלים SLM כמו Gemma Nano,‏ Granite 1.5B,‏ GSmolLM3 ו-Qwen 3.4B

קריאה של תווית הערכים התזונתיים

מודלים שונים צורכים כמויות שונות של המשאבים האלה כשהם פועלים על חומרה שונה במיקומים שונים. עדיין אין תקן למדידה שאפשר להשוות אליו, אבל יש תנועה שמטרתה להוסיף את המידע הזה ל"תוויות המידע התזונתי" של AI.

כרטיסי מודל, שהוצגו על ידי מרגרט מיטשל ועמיתיה ב-Google בשנת 2018, הם גישה סטנדרטית לדיווח על השימוש המיועד של המודלים, המגבלות שלהם, שיקולים אתיים והביצועים שלהם. כיום, חברות רבות משתמשות בטופס כלשהו של כרטיסי מודל, כולל Hugging Face,‏ Meta ו-Microsoft.

גיליונות המידע על AI של IBM, שכוללים מידע על מחזור החיים, אחריות, ניהול ותאימות, פופולריים יותר בסביבות ארגוניות. מסגרות רגולטוריות, כמו EU AI Act (חוק ה-AI של האיחוד האירופי), NIST AI Risk Management Framework (מסגרת NIST לניהול סיכוני AI) ו-ISO 42001, מחייבות תיעוד כזה.

‫Google קראה לשקיפות בעלויות של הסקת מסקנות בכל הענף. אפשר להוסיף את הנתונים האלה לכרטיסי מודל ולגיליונות מידע. ב-Hugging Face הוסיפו עלויות פליטת פחמן לכרטיסי המודלים שלהם, והם השקיעו מאמצים בתקנון של מדידת היעילות האנרגטית באמצעות היוזמה AI Energy Score.

תומכים בשימוש ב-AI בהתאם לצרכים

AI מותאם הוא הבחירה בת קיימא, היעילה והפרגמטית ביותר עבור הלקוחות שלכם ועבור העסק שלכם.

אתם יכולים לקדם את התעשייה על ידי דרישה ממודלים מתארחים שהחברה שלכם מאמצת לחשוף את דרישות המשאבים הבסיסיות שלהם לאימון ולהסקת מסקנות. אם מספיק לקוחות ידרשו שקיפות, סביר יותר שהספקים יפרסמו את הפרטים האלה.