AI yang tepat: Baik untuk bisnis, pengguna, dan planet

Dipublikasikan: 10 November 2025

Saat membuat situs dan aplikasi web dengan AI, Anda mungkin telah membuat prototipe dengan model bahasa besar (LLM), seperti ChatGPT, Gemini, atau Claude, lalu men-deploy penerapan tersebut ke produksi. LLM adalah jenis model dasar, yaitu model yang sangat besar dan telah dilatih sebelumnya, yang membutuhkan banyak resource, mahal, dan sering kali bukan alat terbaik untuk tugas tersebut. Model yang lebih kecil, lokal, dan spesifik untuk tugas tertentu menggunakan lebih sedikit resource dan sering kali memberikan respons yang lebih baik dan lebih cepat dengan biaya yang lebih rendah daripada model dasar "satu ukuran untuk semua".

Saat Anda memilih model yang lebih baik, Anda memilih pendekatan yang lebih berkelanjutan, yang akan kami sebut sebagai AI yang sesuai. AI yang tepat memberikan:

  • Latensi yang lebih rendah bagi pengguna saat model berjalan secara lokal, bukan melakukan perjalanan pulang pergi ke server yang jauh.
  • Biaya API yang lebih rendah saat Anda tidak membayar kemampuan yang tidak digunakan.
  • Akses aplikasi offline ke model di perangkat sisi klien, sehingga menciptakan pengalaman yang lebih andal.

Meskipun model dasar unggul dalam penalaran dan percakapan umum, menggunakannya untuk tugas tertentu (seperti klasifikasi teks atau ekstraksi data) seperti menggunakan mobil Formula 1 untuk pergi ke McDonald's. Secara teknis mungkin, tetapi sangat tidak efisien (dan tidak nyaman bagi penumpang Anda). Sebagai gantinya, sesuaikan penerapan Anda dengan kebutuhan Anda yang sebenarnya.

Praktik AI berkelanjutan dan pengalaman pengguna yang optimal bukanlah prioritas yang saling bersaing. Keduanya adalah prioritas yang sama, tetapi dinyatakan secara berbeda.

Salah satu cara untuk mengevaluasi dampak lingkungan AI adalah:

  • Pelatihan: Pelatihan model awal memerlukan resource yang signifikan. Pengoptimalan dan "pembelajaran" ini dikelola oleh penyedia model.
  • Inferensi: Anda melakukan inferensi saat memberikan input baru (perintah) ke model terlatih untuk menghasilkan output (teks respons). Dibandingkan dengan pelatihan, inferensi menggunakan resource yang jauh lebih sedikit.

Pelatihan adalah biaya tetap, tetapi biaya inferensi diskalakan dengan penggunaan, yang menjadikan pilihan model sebagai faktor utama yang dapat Anda kontrol. Anda dapat membuat pilihan yang tepat untuk kasus penggunaan Anda dan untuk planet ini, dengan mendukung pengembangan AI yang bertanggung jawab.

Menerapkan AI yang mengutamakan pengguna

Daripada membangun AI yang mengutamakan model, bangun AI yang mengutamakan pengguna. Pertimbangkan tugas apa yang dapat dilakukan AI yang akan mempermudah penggunaan aplikasi Anda atau mengurangi beban kerja pengguna atau jumlah peralihan konteks yang harus mereka lakukan.

Misalnya, Anda menjalankan bisnis bernama Rewarding Eats, yang memberikan poin kepada pengguna karena bersantap di restoran tertentu. Anda dapat menggunakan AI untuk memindai gambar tanda terima guna mendapatkan nama restoran dan total pembelanjaan, daripada mengharuskan pelanggan memasukkannya secara manual. Fitur ini kemungkinan akan meningkatkan pengalaman pengguna aplikasi Anda.

Saat membangun AI yang mengutamakan pengguna:

  1. Tentukan persyaratan tugas Anda. Apa saja tugas yang harus dilakukan AI? Apakah sepenuhnya berbasis teks atau melibatkan komponen audio atau visual?
  2. Pilih model yang sesuai. Model yang berbeda lebih efisien dalam tugas yang berbeda dan sering kali memiliki footprint yang lebih kecil.
  3. Pahami batasan deployment Anda. Di mana model sebaiknya berada? Di mana data akan berada? Apakah pengguna akan memiliki koneksi yang andal?
  4. Terapkan dengan peningkatan progresif untuk pengalaman pengguna yang paling cepat dan aman.

Menentukan persyaratan tugas Anda

Daripada mencari "tempat untuk menggunakan AI" atau "fitur AI yang perlu ditambahkan", Anda harus bertanya, "Seperti apa pengalaman yang lancar?" Bergantung pada ukuran perusahaan Anda, hal ini harus dibicarakan dengan manajer produk.

Ambil contoh aplikasi kami, Rewarding Eats. Pertanyaan pertama yang harus diajukan adalah: "Apakah kita memerlukan AI untuk itu?"

Model dasar dapat membuat draf pengeluaran dari tanda terima, dengan beberapa perintah. Namun, cara yang lebih efisien untuk menanganinya tidak memerlukan model yang besar sama sekali. Gunakan Pengenalan Karakter Optik (OCR) untuk mengurai teks dari gambar dan meneruskannya ke model khusus tugas seperti model klasifikasi teks untuk mengidentifikasi item dan biaya dari teks yang diurai. Hal ini dapat dilakukan di perangkat pengguna, tanpa mengirim data apa pun ke server.

Dalam sebagian besar kasus, jika Anda merasa memerlukan model dasar, Anda mungkin perlu memecah masalah menjadi tugas-tugas terpisah.

Pilih model yang sesuai

Setelah mengetahui tugas yang ingin Anda selesaikan, Anda dapat memilih jenis model dan model yang tepat untuk tugas tersebut. Meskipun lebih mudah menggunakan model Foundation, model yang lebih kecil dapat menyelesaikan tugas lebih cepat dan lebih murah. Jika Anda memahami tugas, Anda dapat memilih model kecil khusus tugas yang tepat untuk menangani pekerjaan tersebut.

Ada banyak jenis model dan model yang tersedia, jadi baca pembahasan mendalam tentang memilih model untuk menentukan pilihan yang tepat untuk proyek Anda.

Memilih lokasi yang tepat untuk model Anda

Meskipun model dasar terlalu besar untuk dijalankan di desktop yang paling canggih sekalipun, LLM yang lebih kecil, model bahasa kecil (SLM), dan model khusus tugas dapat dijalankan di banyak perangkat.

Tidak direkomendasikan Tidak direkomendasikan Direkomendasikan
Model bahasa kecil (SLM) Direkomendasikan Direkomendasikan Direkomendasikan
Model dasar Tidak direkomendasikan Tidak direkomendasikan Direkomendasikan

SLM praktis, tetapi tidak umum. Ada miliaran ponsel, dan hanya model terbaru dan lebih mahal yang mampu menjalankan SLM lokal. Itu adalah persentase kecil dari pasar.

Gunakan matriks ini untuk menentukan lokasi terbaik bagi model Anda:

Metrik Sisi klien / Lokal Sisi server / Jarak jauh
Konektivitas Mode offline diperlukan, jaringan tidak stabil, fasilitas aman Lingkungan yang selalu online
Lokasi data Memproses foto pengguna, input teks, file pribadi Bekerja dengan dokumen dan database sisi server
Pola penggunaan Panggilan frekuensi tinggi (terjemahan chat, analisis real-time) Tugas kompleks sesekali
Bandwidth Pengguna seluler, area pedesaan, output file besar Broadband tanpa batas, respons kecil
Privasi dan keamanan Data yang diatur (layanan kesehatan, keuangan), kepatuhan ketat Data bisnis standar, infrastruktur keamanan yang sudah mapan
Dampak pada baterai Aplikasi desktop, kasus penggunaan yang toleran terhadap daya Aplikasi seluler dengan baterai terbatas

Inferensi sisi klien, peningkatan progresif, dan hybrid

Dengan library seperti TensorFlow.js, Transformers.js, dan ONNX.js, aplikasi Anda dapat melakukan inferensi sisi klien dengan data pengguna. Anda mengonversi model ke format yang sesuai, lalu menghostingnya dari jarak jauh atau menyematkannya langsung di aplikasi Anda. Pengalaman pengguna terbaik menggunakan campuran model yang dimuat sebelumnya, dapat didownload, dan jarak jauh yang lancar, sehingga pengguna dapat menyelesaikan pekerjaan tanpa kompromi.

Meskipun penggunaan model jarak jauh yang dihosting di cloud lebih disukai untuk keamanan (atau kebutuhan ukuran), menyediakan model lokal yang memadai saat konektivitas hilang dapat menciptakan pengalaman yang fleksibel.

Pada akhirnya, ada tiga pendekatan untuk deployment model. Pilih yang terbaik untuk kebutuhan Anda.

  • Mengutamakan lokal: Aplikasi memiliki persyaratan offline, penggunaan frekuensi tinggi, data sensitif.
  • Mengutamakan jarak jauh: Penalaran yang kompleks, model besar, penggunaan yang jarang.
  • Pendekatan hybrid: Download model kecil saat menggunakan API, beralih saat siap.

Langkah selanjutnya

Teknologi sering kali mengikuti implementasi. Cara terbaik bagi developer untuk memengaruhi arah industri, demi pengalaman yang lebih baik bagi pengguna dan hasil yang lebih baik bagi dunia kita, adalah dengan:

  • Pilih alat yang tepat untuk pekerjaan. Model yang lebih kecil menggunakan lebih sedikit resource dan sering kali berperforma sebaik model besar, dengan bantuan rekayasa perintah. Latensi telah dikurangi.
  • Memerlukan transparansi biaya inferensi dan pelatihan. Minta perusahaan Anda untuk memprioritaskan model yang mengungkapkan angka ini.
  • Tempatkan model di dekat data untuk mengurangi biaya perjalanan pulang pergi ke server.
  • Gunakan apa yang sudah tersedia. Jika sudah ada model di perangkat, prioritaskan model tersebut terlebih dahulu.

Resource

Jika Anda ingin mempelajari topik ini lebih dalam, saya menggunakan referensi berikut untuk menulis artikel ini. Keduanya sangat menarik untuk dibaca.

Performa dan riset model

Alat implementasi dan pengembangan