Memilih model yang kecil dan efisien

Dipublikasikan: 10 November 2025

Setelah membaca tentang AI yang sesuai, Anda akan mengetahui bahwa model yang lebih kecil lebih berkelanjutan daripada model dasar. Mereka menggunakan lebih sedikit energi dan bahkan dapat dijalankan di perangkat pengguna, sehingga mengurangi latensi dan memberikan pengalaman yang lebih berperforma.

Anda harus melakukannya dengan sengaja, dan memilih model yang tepat untuk kasus penggunaan Anda.

Namun, bagaimana cara menentukan model yang Anda butuhkan? Salah satu pendekatan adalah menentukan metrik keberhasilan untuk aplikasi Anda, lalu membuat prototipe dengan model dasar. Meskipun baru-baru ini banyak model dasar yang dibahas di berita adalah model bahasa besar (LLM), model dasar juga mencakup AI prediktif, yang terspesialisasi dan mungkin lebih sesuai dengan kasus penggunaan Anda.

Setelah Anda memvalidasi metrik kesuksesan, deploy dengan model yang lebih kecil, dan lakukan pengujian hingga Anda menemukan model terkecil yang menghasilkan hasil yang memenuhi kriteria kesuksesan Anda.

Buat prototipe besar, deploy kecil

Untuk memilih model yang tepat, ikuti langkah-langkah berikut:

  1. Buktikan bahwa tugas Anda dapat diselesaikan. Uji apakah yang ingin Anda lakukan dapat dilakukan dengan menggunakan model terbesar. Model ini bisa berupa model bahasa besar, seperti Gemini 2.5 Pro, atau model dasar lainnya.
  2. Tetapkan kriteria keberhasilan. Kumpulkan serangkaian input dan output yang ideal. Misalnya, aplikasi terjemahan dapat memiliki input frasa dalam bahasa Inggris dan output frasa tersebut diterjemahkan dengan benar ke dalam bahasa Spanyol.
  3. Uji dari kecil ke besar. Bandingkan output model yang lebih kecil dengan kriteria pengujian Anda. Mulai dari model terkecil. Prompt engineering dapat membantu Anda mendapatkan hasil yang lebih baik. Anda juga dapat menggunakan model yang lebih besar untuk membandingkan output, guna membantu Anda menghasilkan hasil yang lebih baik dari model yang lebih kecil.
  4. Pilih model terkecil yang memberikan respons yang dapat diterima untuk kasus penggunaan Anda. Misalnya, model terkecil yang menghasilkan terjemahan dengan benar.

Terlepas dari tempat model dihosting, jika model cukup kecil untuk berada di perangkat atau masih perlu dihosting di server, lebih efisien menggunakan model yang lebih kecil daripada model yang lebih besar.

Jenis model

Kami mengategorikan model berdasarkan data yang diprosesnya: visual, audio, dan teks. Saya akan memandu Anda melalui contoh kasus penggunaan dan beberapa model yang tersedia.

Pemrosesan visual

Pemrosesan visual dapat berupa evaluasi gambar statis atau video.

  • Klasifikasi gambar: Gunakan untuk berbagai hal, mulai dari pembuatan teks alternatif untuk kepatuhan aksesibilitas hingga penyaringan konten untuk memfilter gambar yang tidak pantas sebelum sampai ke pengguna. Pilih klasifikasi gambar ini jika Anda perlu memahami isi gambar, tanpa peninjauan manual.

    Model MobileNet, ResNeXt, dan ConvNeXt

  • Deteksi objek: Beri tag pada objek tertentu dalam gambar atau streaming video, buat pengalaman AR interaktif yang merespons objek dunia nyata, atau bangun sistem pengelolaan inventaris yang dapat mengidentifikasi dan menghitung item. Pilih deteksi objek saat Anda memiliki gambar atau video objek tidak bergerak.

    Model Model deteksi objek, seperti YOLOv8 dan DETR

  • Deteksi pose tubuh: Digunakan untuk kontrol antarmuka dengan gestur atau gerakan tubuh, pengalaman coba virtual untuk pakaian, dan platform telemedis yang memantau gerakan pasien dan progres rehabilitasi. Pilih deteksi pose tubuh saat mengevaluasi gambar atau video tubuh seseorang.

    Model Estimasi Pose Models, seperti MoveNet dan BlazePose

  • Deteksi titik kunci wajah: Digunakan untuk sistem autentikasi wajah yang aman, deteksi emosi untuk mempersonalisasi pengalaman pengguna, pelacakan gerakan mata untuk kontrol yang dapat diakses, dan filter foto atau aplikasi kecantikan real-time. Pilih model ini saat mengevaluasi gambar atau video wajah seseorang.

    Model MediaPipe FaceMesh dan OpenPose

  • Model deteksi pose tangan: Gunakan model ini untuk kontrol antarmuka bebas sentuh tempat pengguna menavigasi dengan gestur tangan, aplikasi terjemahan bahasa isyarat untuk aksesibilitas, dan alat kreatif yang merespons gerakan tangan untuk menggambar atau mendesain. Selain itu, pertimbangkan untuk menggunakannya di lingkungan tempat menyentuh layar tidak praktis (layanan medis, layanan makanan) atau saat pengguna akan jauh dari kontrol, seperti presentasi saat pembicara mengontrol slide dengan gestur.

    Model estimasi pose tangan Models, seperti MediaPipe Hands.

  • Pengenalan tulisan tangan: Digunakan untuk mengonversi catatan tulisan tangan menjadi teks digital yang dapat ditelusuri, memproses input stilus untuk aplikasi pencatatan, dan mendigitalkan formulir atau dokumen yang diupload oleh pengguna.

    Model Models Optical Character Recognition (OCR), seperti MiniCPM-o, H2OVL-Mississippi, dan Surya.

  • Model segmentasi gambar: Pilih saat latar belakang gambar yang konsisten penting atau pengeditan gambar diperlukan. Misalnya, Anda dapat menggunakannya untuk penghapusan latar belakang yang akurat, penyaringan konten tingkat lanjut untuk mengidentifikasi area masalah tertentu dalam gambar, dan alat pengeditan foto canggih untuk mengisolasi elemen tertentu, seperti foto profil dan produk.

    Model Segment Anything (SAM), Mask R-CNN

  • Pembuatan gambar: Digunakan untuk membuat gambar baru sesuai permintaan, tanpa lisensi. Model ini dapat digunakan untuk membuat avatar yang dipersonalisasi untuk profil pengguna, variasi gambar produk untuk katalog e-commerce, dan visual kustom untuk alur kerja pemasaran atau pembuatan konten.

    Model Model difusi, seperti Nano Banana, Flux, dan Qwen Image

Pemrosesan audio

Pilih model pemrosesan audio untuk file audio.

  • Klasifikasi audio: Gunakan saat audio perlu diidentifikasi dan dideskripsikan, tanpa peninjauan manual. Misalnya, identifikasi real-time musik latar, suara lingkungan, atau konten lisan dalam upload media, pemberian tag konten otomatis untuk pustaka audio, dan kontrol antarmuka pengguna berbasis suara.

    Model Wav2Vec2 dan AudioMAE

  • Pembuatan audio: Buat konten audio sesuai permintaan tanpa lisensi. Misalnya, hal ini dapat digunakan untuk membuat efek suara kustom untuk pengalaman web interaktif, membuat musik latar dari preferensi atau konten pengguna, dan menghasilkan elemen branding audio seperti suara notifikasi atau masukan antarmuka.

    Model Ada berbagai model pembuatan audio khusus. Model ini cenderung sangat spesifik, jadi saya tidak akan mencantumkan modelnya.

  • Text-to-speech (TTS): Mengonversi konten tertulis menjadi ucapan yang konsisten dan terdengar alami untuk kepatuhan aksesibilitas, membuat narasi voice-over untuk konten pendidikan atau tutorial, dan membangun antarmuka multibahasa yang mengucapkan teks dalam bahasa pilihan pengguna.

    Model Orpheus dan Sesame CSM

  • Speech-to-text (STT): Mentranskripsikan rekaman ucapan manusia, seperti untuk transkripsi real-time untuk acara atau rapat live, fungsi penelusuran dan navigasi yang dikontrol suara, serta teks otomatis untuk aksesibilitas konten video.

    Model Whisper Web Turbo, NVIDIA Canary, dan Kyutai

Pemrosesan teks

  • Klasifikasi bahasa alami (NLP): Digunakan untuk mengurutkan dan mengarahkan sejumlah besar teks, sistem pemberian tag, dan sistem moderasi secara otomatis. Teks tersebut dapat berupa pesan pengguna atau tiket dukungan, mendeteksi sentimen dalam masukan pelanggan atau sebutan di media sosial, dan memfilter spam atau konten tidak pantas sebelum mencapai pengguna lain.

    Model BERT, DistilBERT, dan RoBERTa

  • AI Percakapan: Bangun antarmuka chat dan sistem percakapan. Chatbot dukungan pelanggan, asisten AI pribadi, dan interaksi percakapan serupa adalah beberapa kasus penggunaan terbaik untuk LLM. Untungnya, ada model bahasa yang cukup kecil untuk dimuat di perangkat Anda, yang memerlukan lebih sedikit energi untuk pelatihan dan perintah.

    Model Gemma 2 27B, Llama 3.1, dan Qwen2.5

  • Model terjemahan Digunakan untuk mendukung beberapa bahasa di aplikasi Anda. Model bahasa lokal dapat menangani terjemahan bahasa real-time, mengonversi konten buatan pengguna dalam berbagai bahasa untuk platform global, dan memungkinkan terjemahan dokumen pribadi yang menjaga konten sensitif di perangkat pengguna.

    Model SLM seperti Gemma Nano, Granite 1.5B, GSmolLM3, dan Qwen 3.4B

Baca label nutrisi

Model yang berbeda menggunakan jumlah resource yang berbeda saat berjalan di hardware yang berbeda di lokasi yang berbeda. Belum ada standar pengukuran untuk dijadikan tolok ukur, tetapi ada upaya untuk memasukkan informasi ini ke dalam "label nutrisi" AI.

Kartu model, yang diperkenalkan oleh Margaret Mitchell dan rekan-rekannya di Google pada tahun 2018, adalah pendekatan standar untuk melaporkan penggunaan yang dimaksudkan, batasan, pertimbangan etis, dan performa model. Saat ini, banyak perusahaan yang menggunakan bentuk kartu model, termasuk Hugging Face, Meta, Microsoft.

Lembar Fakta AI IBM, yang mencakup siklus proses, akuntabilitas, tata kelola, kepatuhan, lebih populer di lingkungan perusahaan. Kerangka kerja peraturan, seperti AI Act Uni Eropa, NIST AI Risk Management Framework, dan ISO 42001 memerlukan dokumentasi ini.

Google menyerukan transparansi biaya inferensi di seluruh industri. Angka-angka ini dapat ditambahkan ke kartu model dan lembar fakta. Hugging Face telah menambahkan biaya karbon ke kartu modelnya, dan mereka telah berupaya menstandardisasi pengukuran efisiensi energi dengan inisiatif Skor Energi AI.

Mendukung AI yang sesuai

AI yang sesuai adalah pilihan yang berkelanjutan, berperforma tinggi, dan pragmatis untuk pelanggan Anda, serta bisnis Anda.

Anda dapat memajukan industri dengan mewajibkan model yang dihosting yang diadopsi perusahaan Anda untuk mengungkapkan persyaratan resource pelatihan dan inferensi dasar mereka. Jika cukup banyak pelanggan menuntut transparansi, penyedia akan lebih mungkin merilis detail tersebut.