Опубликовано: 10 ноября 2025 г.
Прочитав об ИИ правильного размера , вы знаете, что меньшие модели более устойчивы, чем базовые. Они потребляют меньше энергии и могут работать даже на устройстве пользователя, что снижает задержку и обеспечивает более высокую производительность.
Вам следует действовать осознанно и выбрать правильную модель для вашего варианта использования.
Но как определить, какая модель вам нужна? Один из подходов — определить метрики успеха для вашего приложения, а затем создать прототип на основе базовой модели. Хотя в последнее время многие базовые модели, о которых идёт речь, представляют собой большие языковые модели (LLM) , базовые модели также включают в себя предиктивный ИИ, который является специализированным и может лучше подойти для вашего варианта использования.
После проверки показателей успеха выполните развертывание с использованием меньших моделей и проводите тестирование, пока не найдете наименьшую возможную модель, которая дает результаты, соответствующие вашим критериям успеха.
Прототип большой, развертывание маленькой
Чтобы выбрать модель подходящего размера, выполните следующие действия:

- Докажите, что ваша задача выполнима . Проверьте, возможно ли то, чего вы пытаетесь достичь, используя максимально возможную модель. Это может быть большая языковая модель, например, Gemini 2.5 Pro, или другая базовая модель.
- Установите критерии успеха . Соберите набор входных данных и идеальных выходных данных. Например, приложение для перевода может иметь входные данные в виде фраз на английском языке и выходные данные в виде правильно переведённых на испанский язык фраз.
- Тестируйте от малого к большему . Сравните результаты меньших моделей с вашими критериями тестирования. Начинайте с самой маленькой модели. Своевременное проектирование поможет вам добиться лучших результатов. Вы также можете использовать более крупную модель для сравнения результатов , чтобы добиться лучших результатов от вашей меньшей модели.
- Выберите наименьшую модель , дающую приемлемые результаты для вашего варианта использования. Например, наименьшую модель, которая выдаёт корректные переводы.
Независимо от того, где размещена модель, если она достаточно мала для размещения на устройстве или ее все же необходимо размещать на сервере, эффективнее использовать меньшую модель, чем большую.
Типы моделей
Я классифицировал модели по типу обрабатываемых данных: визуальные , аудио и текстовые . Я покажу вам примеры использования и некоторые доступные модели.
Визуальная обработка
Визуальная обработка может представлять собой оценку неподвижных изображений или видео.
Классификация изображений : используется для самых разных целей: от создания альтернативного текста для обеспечения доступности до проверки контента для фильтрации нежелательных изображений до их попадания на сайт пользователей. Выбирайте эту классификацию изображений, когда вам нужно понять, что изображено на изображении, без участия человека.
Модели MobileNet, ResNeXt и ConvNeXt
Обнаружение объектов : отмечайте определённые объекты на изображениях или видеопотоках, создавайте интерактивные приложения дополненной реальности, реагирующие на объекты реального мира, или разрабатывайте системы управления запасами, способные идентифицировать и подсчитывать предметы. Выбирайте обнаружение объектов, если у вас есть фотография или видео неодушевлённого предмета.
Модели Модели обнаружения объектов, такие как YOLOv8 и DETR
Определение позы тела : используется для управления интерфейсом с помощью жестов или движений тела, виртуальной примерки одежды и телемедицинских платформ для мониторинга движений и прогресса реабилитации пациента. Выбирайте определение позы тела при оценке изображений или видеозаписей тела человека.
Модели оценки позы моделей, такие как MoveNet и BlazePose
Распознавание ключевых точек лица : используется в безопасных системах аутентификации по лицу, распознавании эмоций для персонализации пользовательского опыта, отслеживании движения глаз для обеспечения доступности элементов управления, а также в фотофильтрах и приложениях для коррекции внешности в режиме реального времени. Выберите эту модель при оценке изображений или видео с лицом человека.
Модели MediaPipe FaceMesh и OpenPose
Модели распознавания положения рук : используйте эти модели для бесконтактных элементов управления интерфейсом, где пользователи перемещаются с помощью жестов, приложений для сурдоперевода для обеспечения доступности и инструментов для творчества, реагирующих на движения рук, для рисования или дизайна. Также рассмотрите возможность их использования в средах, где сенсорные экраны непрактичны (медицинские учреждения, предприятия общественного питания) или когда пользователи находятся далеко от элементов управления, например, во время презентаций, где докладчики управляют слайдами с помощью жестов.
Модели Модели оценки позы руки, такие как MediaPipe Hands.
Распознавание рукописного ввода : используется для преобразования рукописных заметок в доступный для поиска цифровой текст, обработки ввода стилусом для приложений по созданию заметок и оцифровки форм или документов, загруженных пользователями.
Модели Модели оптического распознавания символов (OCR), такие как MiniCPM-o, H2OVL-Mississippi и Surya.
Модели сегментации изображений : выбирайте их, когда важен однородный фон изображений или требуется редактирование изображений. Например, вы можете использовать их для точного удаления фона, расширенного скрининга контента для выявления проблемных областей на изображениях, а также для сложных инструментов редактирования фотографий для выделения отдельных элементов, таких как фотографии профилей и товаров.
Модели сегментируют всё (SAM), маска R-CNN
Генерация изображений : используется для создания новых изображений по запросу без лицензирования. Эти модели могут использоваться для создания персонализированных аватаров для профилей пользователей, вариантов изображений товаров для каталогов электронной коммерции и пользовательских визуальных элементов для маркетинговых целей или создания контента.
Модели Диффузионные модели, такие как Nano Banana, Flux и Qwen Image
Обработка звука
Выберите модель обработки звука для аудиофайлов.
Классификация аудио : используется, когда аудиофайлы необходимо идентифицировать и описать без участия человека. Например, для идентификации фоновой музыки, звуков окружающей среды или речевого контента в загруженных медиафайлах в режиме реального времени, автоматической маркировки контента для аудиобиблиотек и управления пользовательским интерфейсом на основе звука.
Модели Wav2Vec2 и AudioMAE
Генерация звука : создание аудиоконтента по запросу без лицензирования. Например, это можно использовать для создания специальных звуковых эффектов для интерактивных веб-приложений, создания фоновой музыки на основе пользовательских настроек или контента, а также для создания аудиоэлементов брендинга, таких как звуки уведомлений или отклики интерфейса.
Модели. Существуют различные специализированные модели генерации звука. Они, как правило, очень специфичны, поэтому я не буду перечислять их.
Преобразование текста в речь (TTS) : преобразование письменного контента в последовательную, естественно звучащую речь для соответствия требованиям доступности, создание закадрового текста для образовательного контента или обучающих программ, а также разработка многоязычных интерфейсов, которые воспроизводят текст на предпочитаемых пользователями языках.
Модели Орфей и Сезам CSM
Преобразование речи в текст (STT) : транскрибирование записи человеческой речи, например, для транскрипции в реальном времени прямых трансляций событий или встреч, голосового управления навигацией и функциями поиска, а также автоматического создания субтитров для обеспечения доступности видеоконтента.
Модели Whisper Web Turbo, NVIDIA Canary и Kyutai
Обработка текста
Классификация естественного языка (NLP) : используется для автоматической сортировки и маршрутизации больших объёмов текста, систем тегирования и модерации. Текст может содержать сообщения пользователей или запросы в службу поддержки, определять тональность отзывов клиентов или упоминаний в социальных сетях, а также фильтровать спам или нежелательный контент до того, как он попадёт к другим пользователям.
Модели BERT, DistilBERT и RoBERTa
Разговорный ИИ : создавайте чат-интерфейсы и диалоговые системы. Чат-боты службы поддержки клиентов, персональные ИИ-помощники и другие подобные диалоговые взаимодействия — одни из лучших вариантов использования LLM. К счастью, существуют языковые модели, достаточно компактные для вашего устройства, и их обучение и подсказки требуют гораздо меньше ресурсов.
Модели Gemma 2 27B, Llama 3.1 и Qwen2.5
Модели перевода. Используйте их для поддержки нескольких языков в вашем приложении. Локальные языковые модели могут осуществлять перевод в режиме реального времени, конвертируя пользовательский контент на несколько языков для глобальных платформ и обеспечивая конфиденциальный перевод документов, сохраняя конфиденциальную информацию на устройстве пользователя.
Модели SLM, такие как Gemma Nano, Granite 1.5B, GSmolLM3 и Qwen 3.4B
Прочитайте этикетку с информацией о пищевой ценности

Разные модели потребляют разное количество этих ресурсов при работе на разном оборудовании в разных местах. Пока нет стандарта измерения, с которым можно было бы сравнивать эти показатели, но существует тенденция включать эту информацию в «маркировки пищевой ценности» ИИ.
Карточки моделей , представленные Маргарет Митчелл и коллегами в Google в 2018 году, представляют собой стандартизированный подход к отчётности о предполагаемом использовании моделей, их ограничениях, этических аспектах и эффективности. Сегодня многие компании используют ту или иную форму карточек моделей, включая Hugging Face, Meta и Microsoft.
Информационные бюллетени IBM по ИИ , охватывающие жизненный цикл, подотчётность, управление и соответствие требованиям, пользуются большей популярностью в корпоративных средах. Наличие такой документации предусмотрено нормативными актами, такими как Закон ЕС об ИИ, Система управления рисками ИИ NIST и ISO 42001.
Компания Google призвала к прозрачности данных о стоимости выводов в отрасли . Эти данные можно было бы добавить в карточки моделей и информационные бюллетени. Компания Hugging Face добавила данные о стоимости выбросов углерода в свои карточки моделей и предприняла усилия по стандартизации измерения энергоэффективности в рамках инициативы AI Energy Score .
Сторонник правильного размера ИИ
Правильно подобранный ИИ — это устойчивый, эффективный и прагматичный выбор как для ваших клиентов, так и для вашего бизнеса.
Вы можете стимулировать развитие отрасли, требуя от используемых вашей компанией моделей раскрытия информации о базовых требованиях к ресурсам для обучения и вывода. Если достаточное количество клиентов требуют прозрачности, поставщики услуг с большей вероятностью будут раскрывать эту информацию.