Pilih platform Anda

Sebelum membangun dengan AI, Anda harus memilih platform tempat AI dihosting. Pilihan Anda memengaruhi kecepatan, biaya, skalabilitas, dan kredibilitas sistem AI Anda. Anda dapat memilih antara:

  • AI sisi klien: Berjalan langsung di browser. Artinya, data dapat tetap bersifat pribadi, di perangkat pengguna, dan tidak ada latensi jaringan. Namun, agar dapat berfungsi dengan baik, AI sisi klien memerlukan kasus penggunaan yang sangat spesifik dan terdefinisi dengan baik.
  • AI sisi server: Berjalan di cloud. Model ini sangat mumpuni dan dapat diskalakan, tetapi lebih mahal dalam hal latensi dan biaya.

Setiap opsi memiliki konsekuensi, dan penyiapan yang tepat bergantung pada kasus penggunaan, keterampilan tim, dan sumber daya Anda. Misalnya, Anda dapat menawarkan alat ringkasan yang berjalan secara lokal sehingga pengguna dapat mengajukan pertanyaan pribadi tanpa perlu mengelola informasi identitas pribadi (PII). Namun, agen dukungan pelanggan dapat memberikan jawaban yang lebih berguna dengan menggunakan model berbasis cloud yang memiliki akses ke database besar berisi resource.

Dalam modul ini, Anda akan mempelajari cara:

  • Bandingkan kelebihan dan kekurangan AI sisi klien dan sisi server.
  • Sesuaikan platform Anda dengan kasus penggunaan dan kemampuan tim Anda.
  • Merancang sistem hybrid, yang menawarkan AI di klien dan server, untuk berkembang bersama produk Anda.

Meninjau opsi

Untuk deployment, pertimbangkan platform AI di sepanjang dua sumbu utama. Anda dapat memilih:

  • Tempat model berjalan: Apakah berjalan di sisi klien atau sisi server?
  • Kemampuan penyesuaian: Seberapa besar kontrol yang Anda miliki atas pengetahuan dan kemampuan model? Jika Anda dapat mengontrol model, yang berarti Anda dapat mengubah bobot model, Anda dapat menyesuaikan perilakunya untuk memenuhi persyaratan spesifik Anda.
Contoh model berdasarkan platform dan kontrol.
Gambar 1: Opsi platform AI, yang dibedakan berdasarkan platform deployment dan tingkat kontrol.

AI sisi klien

AI sisi klien berjalan di browser, dan komputasi dilakukan secara lokal di perangkat pengguna. Anda tidak perlu menyediakan komputasi waktu inferensi, dan data tetap berada di perangkat pengguna. Hal ini menjadikannya cepat, pribadi, dan cocok untuk pengalaman interaktif yang ringan.

Namun, model sisi klien biasanya cukup kecil, yang dapat membatasi kemampuan dan performanya. Model ini paling cocok untuk tugas yang sangat terspesialisasi, seperti deteksi toksisitas atau analisis sentimen. Biasanya, tugas ini adalah tugas AI prediktif dengan ruang output terbatas.

Ada dua opsi utama:

  • AI bawaan: Browser, seperti Google Chrome dan Microsoft Edge, mengintegrasikan model AI. API ini dapat diakses melalui panggilan JavaScript, tanpa memerlukan penyiapan atau hosting. Setelah didownload, model dapat dipanggil oleh semua situs yang menggunakannya.
  • Model kustom: Anda dapat menggunakan library sisi klien, seperti Transformers.js dan MediaPipe, untuk mengintegrasikan model ke dalam aplikasi Anda. Artinya, Anda dapat mengontrol bobot model. Namun, itu juga berarti setiap pengguna situs Anda harus mendownload model kustom Anda. Bahkan model AI terkecil pun berukuran besar dalam konteks situs.

AI sisi server

Dengan AI sisi server, aplikasi web Anda memanggil API untuk mengirim input ke model AI dan menerima outputnya. Penyiapan ini mendukung model yang lebih besar dan lebih kompleks serta tidak bergantung pada hardware pengguna.

Dua kategori untuk AI sisi server adalah:

  • Layanan terkelola: Model ini dihosting di pusat data oleh pihak ketiga, seperti Gemini 3 dan GPT-5. Pemilik model menyediakan API untuk mengaksesnya. Artinya, Anda dapat menggunakan model canggih dengan penyiapan minimal. Model ini ideal untuk pembuatan prototipe cepat, percakapan terbuka, dan penalaran serbaguna. Namun, penskalaan pada layanan terkelola bisa mahal.
  • Model yang dihosting sendiri: Anda dapat men-deploy model dengan bobot terbuka, seperti Gemma atau Llama, di infrastruktur Anda sendiri atau di container terkelola, seperti Vertex AI atau Hugging Face Inference. Dengan pendekatan ini, Anda dapat memanfaatkan prapelatihan yang dilakukan oleh pembuat model, tetapi Anda tetap memiliki kontrol atas model, data penyesuaian, dan performa.

Memilih platform awal

Tinjau karakteristik arsitektur platform AI dan analisis trade-off untuk memutuskan penyiapan awal Anda.

Menentukan persyaratan arsitektur Anda

Dengan setiap keputusan, Anda harus membuat kompromi. Lihat karakteristik utama yang menentukan biaya dan nilai platform AI Anda:

  • Kualitas model: Seberapa baik performa model di berbagai pengguna dan tugas, tanpa penyesuaian. Sering kali, hal ini berkorelasi dengan ukuran model.
  • Kemampuan penyesuaian: Sejauh mana Anda dapat menyetel secara halus, mengubah, atau mengontrol perilaku dan arsitektur model.
  • Akurasi: Kualitas dan keandalan keseluruhan prediksi atau generasi model.
  • Privasi: Tingkat data pengguna tetap lokal dan di bawah kontrol pengguna.
  • Biaya tetap: Biaya berulang yang diperlukan untuk mengoperasikan sistem AI terlepas dari penggunaan, termasuk penyediaan dan pemeliharaan infrastruktur.
  • Biaya per permintaan: Biaya tambahan untuk setiap permintaan yang masuk.
  • Kompatibilitas: Seberapa luas pendekatan ini berfungsi di berbagai browser, perangkat, dan lingkungan tanpa logika penggantian.
  • Kemudahan pengguna: Apakah pengguna perlu melakukan langkah-langkah tambahan untuk menggunakan sistem AI, seperti mendownload model.
  • Kemudahan developer: Seberapa cepat dan mudah sebagian besar developer dapat men-deploy, mengintegrasikan, dan memelihara model, tanpa keahlian AI khusus.

Tabel berikut memberikan contoh perkiraan seberapa baik performa setiap platform untuk setiap kriteria, dengan 1 adalah yang terendah dan 5 adalah yang tertinggi.

Kriteria Klien Server
AI bawaan atau di perangkat Model kustom Layanan terkelola Model yang dihosting sendiri
Daya model

Mengapa 2 bintang untuk daya model?

AI bawaan dan di perangkat menggunakan model browser kecil yang sudah dimuat sebelumnya dan dioptimalkan untuk fitur sempit dan khusus tugas, bukan percakapan atau penalaran terbuka.

Mengapa 3 bintang untuk kemampuan model?

Library sisi klien kustom menawarkan fleksibilitas lebih besar daripada AI bawaan, tetapi Anda masih dibatasi oleh ukuran download, batas memori, dan hardware pengguna.

Mengapa daya model diberi 4 bintang?

Dengan layanan terkelola dan hosting mandiri, Anda memiliki akses ke model canggih berukuran besar yang mampu melakukan penalaran kompleks, penanganan konteks panjang, dan cakupan tugas yang luas.

Kemampuan penyesuaian

Mengapa bintang 1 untuk kemampuan penyesuaian?

Model bawaan tidak mengizinkan akses ke bobot model atau data pelatihan. Cara utama untuk menyesuaikan perilakunya adalah melalui rekayasa perintah

Mengapa 5 bintang untuk kemampuan penyesuaian?

Opsi ini memberi Anda kontrol atas pemilihan dan bobot model. Banyak library sisi klien juga memungkinkan penyesuaian dan pelatihan model.

Mengapa bintang 1 untuk kemampuan penyesuaian?

Layanan terkelola mengekspos model yang canggih, tetapi menawarkan kontrol minimal atas perilaku internalnya. Penyesuaian biasanya terbatas pada perintah dan konteks input.

Mengapa 5 bintang untuk Kemampuan Penyesuaian?

Model yang dihosting sendiri memberikan kontrol penuh atas bobot model, data pelatihan, penyesuaian, dan konfigurasi deployment.

Akurasi

Mengapa akurasi diberi 2 bintang?

Akurasi dalam model bawaan sudah cukup untuk tugas yang memiliki cakupan baik, tetapi ukuran model dan generalisasi yang terbatas mengurangi keandalan untuk input yang kompleks atau bernuansa.

Mengapa akurasi 3 bintang?

Akurasi model sisi klien kustom dapat ditingkatkan dalam proses pemilihan model. Namun, hal ini tetap dibatasi oleh ukuran model, kuantisasi, dan variabilitas hardware klien.

Mengapa akurasi diberi 5 bintang?

Layanan terkelola biasanya menawarkan akurasi yang relatif tinggi, yang diuntungkan dari model besar, data pelatihan yang ekstensif, dan peningkatan berkelanjutan dari penyedia.

Mengapa akurasi 4 bintang?

Akurasi bisa tinggi, tetapi bergantung pada model yang dipilih dan upaya penyesuaian. Performa mungkin tertinggal dari layanan terkelola.

Latensi jaringan

Mengapa latensi jaringan diberi 5 bintang?

Pemrosesan dilakukan langsung di perangkat pengguna.

Mengapa latensi jaringan diberi 2 bintang?

Ada perjalanan pulang pergi ke server.

Privasi

Mengapa 5 bintang untuk privasi?

Data pengguna harus tetap berada di perangkat secara default, sehingga meminimalkan eksposur data dan menyederhanakan kepatuhan privasi.

Mengapa 2 bintang untuk privasi?

Input pengguna harus dikirim ke server eksternal, sehingga meningkatkan eksposur data dan persyaratan kepatuhan. Namun, ada solusi khusus untuk memitigasi masalah privasi, seperti Private AI Compute.

Mengapa 3 bintang untuk privasi?

Data tetap berada di bawah kontrol organisasi Anda, tetapi tetap keluar dari perangkat pengguna dan memerlukan penanganan yang aman serta langkah-langkah kepatuhan.

Biaya tetap

Mengapa 5 bintang untuk biaya tetap?

Model berjalan di perangkat pengguna yang sudah ada, sehingga tidak ada biaya infrastruktur tambahan.

Mengapa 5 bintang untuk biaya tetap?

Sebagian besar API mengenakan biaya berdasarkan penggunaan, sehingga tidak ada biaya tetap.

Mengapa 2 bintang untuk biaya tetap?

Biaya tetap mencakup infrastruktur, pemeliharaan, dan overhead operasional.

Biaya per permintaan

Mengapa 5 bintang untuk biaya per permintaan?

Tidak ada biaya per permintaan, karena inferensi berjalan di perangkat pengguna.

Mengapa 2 bintang untuk biaya per permintaan?

Layanan terkelola cenderung memiliki harga per permintaan. Biaya penskalaan dapat menjadi signifikan, terutama pada volume traffic yang tinggi.

Mengapa 3 bintang untuk biaya per permintaan?

Tidak ada biaya langsung per permintaan; biaya efektif per permintaan bergantung pada pemanfaatan infrastruktur.

Kompatibilitas

Mengapa 2 bintang untuk kompatibilitas?

Ketersediaan bervariasi menurut browser dan perangkat, sehingga memerlukan penggantian untuk lingkungan yang tidak didukung.

Mengapa diberi 1 bintang untuk kompatibilitas?

Kompatibilitas bergantung pada kemampuan hardware dan dukungan runtime, sehingga membatasi jangkauan di seluruh perangkat.

Mengapa 5 bintang untuk kompatibilitas?

Platform sisi server kompatibel secara luas untuk semua pengguna, karena inferensi terjadi di sisi server dan klien hanya menggunakan API.

Kenyamanan pengguna

Mengapa 3 bintang untuk kemudahan pengguna?

Umumnya lancar setelah tersedia, tetapi AI bawaan memerlukan download model awal dan dukungan browser.

Mengapa 2 bintang untuk kemudahan pengguna?

Pengguna mungkin mengalami penundaan karena download atau hardware yang tidak didukung.

Mengapa 4 bintang untuk kemudahan pengguna?

Langsung berfungsi tanpa memerlukan download atau persyaratan perangkat, sehingga memberikan pengalaman pengguna yang lancar. Namun, mungkin ada jeda jika koneksi jaringan lemah.

Kemudahan developer

Mengapa 5 bintang untuk kemudahan developer?

AI bawaan memerlukan penyiapan minimal, tanpa infrastruktur, dan sedikit keahlian AI, sehingga mudah diintegrasikan dan dikelola.

Mengapa 2 bintang untuk kemudahan developer?

Memerlukan pengelolaan model, runtime, pengoptimalan performa, dan kompatibilitas di seluruh perangkat.

Mengapa 4 bintang untuk kemudahan developer?

Layanan terkelola menyederhanakan deployment dan penskalaan. Namun, model ini tetap memerlukan integrasi API, pengelolaan biaya, dan rekayasa perintah.

Mengapa 1 bintang untuk kemudahan developer?

Deployment sisi server kustom memerlukan keahlian yang signifikan dalam infrastruktur, pengelolaan model, pemantauan, dan pengoptimalan.

Upaya pemeliharaan

Mengapa 4 bintang untuk upaya pemeliharaan?

Browser menangani update dan pengoptimalan model, tetapi developer harus beradaptasi dengan perubahan ketersediaan.

Mengapa 2 bintang untuk upaya pemeliharaan?

Memerlukan update berkelanjutan untuk model, penyesuaian performa, dan kompatibilitas seiring berkembangnya browser dan perangkat.

Mengapa upaya pemeliharaan diberi 5 bintang?

Pemeliharaan ditangani oleh penyedia.

Mengapa 2 bintang untuk upaya pemeliharaan?

Memerlukan pemeliharaan berkelanjutan, termasuk update model, pengelolaan infrastruktur, penskalaan, dan keamanan.

Menganalisis konsekuensi

Untuk menggambarkan proses pengambilan keputusan, kita akan menambahkan fitur lain ke Example Shoppe, sebuah platform e-commerce berukuran sedang. Anda tertarik untuk menghemat biaya layanan pelanggan di luar jam kerja, jadi Anda memutuskan untuk membuat asisten berteknologi AI untuk menjawab pertanyaan pengguna tentang pesanan, pengembalian, dan produk.

Gambar 2. Dalam modul ini, kita terutama berfokus pada lapisan data dan kecerdasan dari cetak biru sistem AI untuk Example Shoppe.
Anda dapat meninjau cetak biru sistem AI lengkap, yang menampilkan peluang dan solusi.

Analisis skenario menggunakan dua sudut pandang: persyaratan kasus penggunaan dan batasan bisnis atau tim.

Persyaratan Analisis Kriteria Implikasi
Akurasi dan fleksibilitas tinggi Pengguna mengajukan berbagai pertanyaan kompleks tentang pesanan, produk, dan pengembalian. Performa dan akurasi model Memerlukan model bahasa besar (LLM).
Kekhususan data Chatbot ini harus dapat menjawab pertanyaan khusus tentang data, produk, dan kebijakan perusahaan. Kemampuan Penyesuaian Memerlukan penyerapan data, seperti RAG, tetapi tidak memerlukan penyesuaian model.
Persyaratan kasus penggunaan
Persyaratan Analisis Kriteria Implikasi
Basis pengguna Ratusan ribu pengguna. Skalabilitas, kompatibilitas Memerlukan arsitektur yang menangani traffic tinggi dan andal.
Fokus pasca-peluncuran Tim akan pindah ke project lain setelah peluncuran versi 1. Upaya pemeliharaan Memerlukan solusi dengan pemeliharaan berkelanjutan yang minimal.
Keahlian tim Developer web yang andal, dengan keahlian AI/ML terbatas Kemudahan developer Solusi harus mudah di-deploy dan diintegrasikan tanpa memerlukan keterampilan AI khusus.
Kendala bisnis atau tim

Setelah memprioritaskan kriteria, Anda dapat melihat tabel estimasi kompromi untuk menentukan platform yang sesuai dengan kriteria prioritas tertinggi Anda:

Kriteria yang diprioritaskan Pemenang platform
Performa model Sisi server
Kemampuan Penyesuaian Sisi server: Model dihosting sendiri
Kemudahan developer Sisi server: Layanan terkelola
Upaya pemeliharaan Sisi server: Layanan Terkelola
Kompatibilitas dan skalabilitas Sisi server

Dari perincian ini, jelas bahwa Anda harus menggunakan AI sisi server, dan mungkin layanan terkelola. Hal ini menawarkan model serbaguna untuk pertanyaan pelanggan yang kompleks. Hal ini meminimalkan upaya pemeliharaan dan pengembangan dengan memindahkan infrastruktur, kualitas model, dan waktu aktif ke penyedia.

Meskipun penyesuaian terbatas, hal ini merupakan pertukaran yang berharga bagi tim pengembangan web dengan pengalaman rekayasa model yang terbatas.

Penyiapan retrieval-augmented generation (RAG) dapat membantu Anda memberikan konteks yang relevan kepada model pada waktu inferensi.

AI Hybrid

Sistem AI yang matang jarang berjalan di satu platform atau dengan satu model. Sebaliknya, mereka mendistribusikan workload AI untuk mengoptimalkan trade-off.

Menemukan peluang untuk AI hybrid

Setelah meluncurkan, Anda harus menyempurnakan persyaratan berdasarkan data dan masukan dari dunia nyata. Dalam contoh kita, Example Shoppe, Anda menunggu beberapa bulan untuk menganalisis hasilnya dan menemukan hal berikut:

  • Sekitar 80% permintaan bersifat berulang ("Di mana pesanan saya?", "Bagaimana cara mengembalikan barang ini?"). Mengirim permintaan ini ke layanan terkelola akan menimbulkan banyak overhead dan biaya.
  • Hanya 20% permintaan yang memerlukan penalaran yang lebih mendalam dan percakapan interaktif yang jawabannya tidak pasti.

Model lokal ringan dapat mengklasifikasikan input pengguna dan menjawab kueri rutin, seperti, "Apa kebijakan pengembalian Anda?" Anda dapat merutekan pertanyaan yang kompleks, jarang, atau ambigu ke model sisi server.

Dengan menerapkan AI sisi server dan sisi klien, Anda dapat mengurangi biaya dan latensi, sekaligus mempertahankan akses ke penalaran yang canggih jika diperlukan.

Mendistribusikan workload

Untuk membangun sistem hybrid ini untuk Example Shoppe, Anda harus memulai dengan menentukan sistem default. Dalam hal ini, sebaiknya mulai dari sisi klien. Aplikasi harus merutekan ke AI sisi server dalam dua kasus:

  • Penggantian berbasis kompatibilitas: Jika perangkat atau browser pengguna tidak dapat menangani permintaan, permintaan tersebut harus kembali ke server
  • Eskalasi berbasis kemampuan: Jika permintaan terlalu rumit atau tidak terbatas untuk model sisi klien, sebagaimana ditentukan oleh kriteria yang telah ditentukan sebelumnya, permintaan tersebut harus diekskalasikan ke model sisi server yang lebih besar. Anda dapat menggunakan model untuk mengklasifikasikan permintaan sebagai umum, sehingga Anda melakukan tugas di sisi klien, atau tidak umum, dan Anda mengirimkan permintaan ke sistem sisi server. Misalnya, jika model sisi klien menentukan bahwa pertanyaan terkait dengan masalah yang tidak umum, seperti mendapatkan pengembalian dana dalam mata uang yang berbeda.

Fleksibilitas menimbulkan lebih banyak kompleksitas

Mendistribusikan workload di antara dua platform membuat Anda lebih fleksibel, tetapi juga menambah kompleksitas:

  • Orkestrasi: Dua lingkungan eksekusi berarti lebih banyak komponen yang bergerak. Anda membutuhkan logika untuk pemilihan rute, percobaan ulang, dan penggantian.
  • Pembuatan versi: Jika Anda menggunakan model yang sama di seluruh platform, model tersebut harus tetap kompatibel di kedua lingkungan.
  • Rekayasa perintah dan rekayasa konteks: Jika Anda menggunakan model yang berbeda di setiap platform, Anda harus melakukan rekayasa perintah untuk setiap platform.
  • Pemantauan: Log dan metrik dibagi dan memerlukan upaya penyatuan ekstra.
  • Keamanan: Anda mempertahankan dua area serangan. Endpoint lokal dan cloud harus diamankan.

Ini adalah pertimbangan lain yang perlu Anda pikirkan. Jika Anda memiliki tim kecil atau sedang membangun fitur yang tidak penting, Anda mungkin tidak ingin menambahkan kompleksitas ini.

Kesimpulan Anda

Antisipasi perubahan pilihan platform Anda. Mulailah dari kasus penggunaan, sesuaikan dengan pengalaman dan sumber daya tim Anda, dan lakukan iterasi seiring dengan pertumbuhan produk dan kematangan AI Anda. Tugas Anda adalah menemukan kombinasi yang tepat antara kecepatan, privasi, dan kontrol bagi pengguna Anda, lalu membangun dengan fleksibilitas tertentu. Dengan begitu, Anda dapat beradaptasi dengan persyaratan yang berubah dan mendapatkan manfaat dari update platform dan model di masa mendatang.

Resource

Uji pemahaman Anda

Apa dua pertimbangan utama saat memilih platform AI untuk aplikasi Anda?

Bahasa dan framework pemrograman Anda.
Jawaban Anda salah.
Biaya model dan kecepatan pelatihan.
Bagus, jawaban Anda benar.
Tempat model berjalan (di klien atau server) dan tingkat kontrol atas model.
Jawaban Anda salah.
Ukuran tim pengembangan dan anggaran pemasaran Anda.
Jawaban Anda salah.

Kapan Layanan yang dikelola di sisi server, seperti Gemini Pro, menjadi pilihan terbaik untuk platform Anda?

Saat tim Anda memiliki keahlian machine learning yang mendalam dan ingin menyetel bobot secara manual.
Jawaban Anda salah.
Saat Anda perlu membuat prototipe dengan cepat untuk tugas penalaran yang kompleks tanpa mengelola infrastruktur.
Bagus, jawaban Anda benar.
Saat pengguna tidak memiliki koneksi internet.
Jawaban Anda salah.
Saat Anda memerlukan latensi serendah mungkin untuk efek video real-time.
Jawaban Anda salah.

Apa manfaat utama penerapan sistem AI hibrida?

Hal ini memungkinkan Anda mendistribusikan workload untuk mengoptimalkan trade-off, seperti menjalankan tugas sederhana secara lokal untuk kecepatan dan tugas kompleks di server untuk daya.
Bagus, jawaban Anda benar.
Hal ini memastikan Anda membayar biaya klien dan server secara setara.
Jawaban Anda salah.
Hal ini memaksa pengguna mendownload model besar setiap kali mereka mengunjungi situs.
Jawaban Anda salah.
Dengan demikian, tidak diperlukan logika penggantian dalam kode Anda.
Jawaban Anda salah.