Yayınlanma tarihi: 10 Kasım 2025
Doğru boyutlandırılmış yapay zeka hakkında bilgi edindikten sonra daha küçük modellerin temel modellerden daha sürdürülebilir olduğunu öğrenirsiniz. Daha az enerji tüketirler ve hatta kullanıcının cihazında çalıştırılabilirler. Bu sayede gecikme süresi azalır ve daha iyi bir performans deneyimi sunulur.
Amacınıza uygun hareket etmeli ve kullanım alanınız için doğru modeli seçmelisiniz.
Ancak hangi modele ihtiyacınız olduğunu nasıl belirleyebilirsiniz? Bir yaklaşım, uygulamanızın başarı metriklerini belirlemek ve ardından temel modelle prototip oluşturmaktır. Son zamanlarda haberlerde yer alan temel modellerin çoğu büyük dil modelleri (LLM'ler) olsa da temel modeller arasında, uzmanlaşmış ve kullanım alanınıza daha uygun olabilecek tahmini yapay zeka da yer alır.
Başarı metriklerini doğruladıktan sonra daha küçük modellerle dağıtım yapın ve başarı kriterlerinizi karşılayan sonuçlar üreten mümkün olan en küçük modeli bulana kadar test edin.
Büyük prototipler oluşturun, küçük dağıtımlar yapın
İhtiyaçlarınıza en uygun modeli seçmek için aşağıdaki adımları uygulayın:

- Görevinizin mümkün olduğunu kanıtlayın. En büyük modeli kullanarak yapmaya çalıştığınız şeyin mümkün olup olmadığını test edin. Bu, Gemini 2.5 Pro gibi bir büyük dil modeli veya başka bir temel model olabilir.
- Başarı ölçütlerini belirleyin. Bir dizi giriş ve ideal çıkış toplayın. Örneğin, bir çeviri uygulamasında İngilizce kelime öbekleri giriş olarak alınabilir ve bu kelime öbeklerinin İspanyolcaya doğru şekilde çevrilmiş halleri çıkış olarak verilebilir.
- Küçükten büyüğe doğru test edin. Daha küçük modellerin çıktılarını test ölçütlerinizle karşılaştırın. En küçük modelden başlayarak ilerleyin. İstem mühendisliği, daha iyi sonuçlar elde etmenize yardımcı olabilir. Daha küçük modelinizden daha iyi bir sonuç elde etmenize yardımcı olması için çıktıları karşılaştırmak üzere daha büyük bir model de kullanabilirsiniz.
- Kullanım alanınız için kabul edilebilir yanıtlar veren en küçük modeli seçin. Örneğin, çevirileri doğru şekilde veren en küçük model.
Modelin nerede barındırıldığına bakılmaksızın, cihazda çalışabilecek kadar küçükse veya yine de bir sunucuda barındırılması gerekiyorsa büyük bir model yerine daha küçük bir model kullanmak daha verimlidir.
Model türleri
Modelleri işledikleri verilere göre görsel, ses ve metin olarak sınıflandırdım. Örnek kullanım alanlarını ve mevcut modellerden bazılarını inceleyeceğiz.
Görsel işleme
Görsel işleme, durağan görüntülerin veya videoların değerlendirilmesi olabilir.
Resim sınıflandırma: Erişilebilirlik uygunluğu için alternatif metin oluşturmadan, kullanıcılara ulaşmadan önce uygunsuz resimleri filtrelemek üzere içerik taramaya kadar her şey için kullanın. İnsan incelemesi olmadan bir resmin içeriğini anlamanız gerektiğinde bu görüntü sınıflandırmasını seçin.
Modeller: MobileNet, ResNeXt ve ConvNeXt
Nesne algılama: Resimlerdeki veya video akışlarındaki belirli nesneleri etiketleyin, gerçek dünyadaki nesnelere yanıt veren etkileşimli AR deneyimleri oluşturun ya da öğeleri tanımlayıp sayabilen envanter yönetim sistemleri geliştirin. Cansız bir nesnenin fotoğrafı veya videosu varsa nesne algılamayı seçin.
Modeller: YOLOv8 ve DETR gibi nesne algılama modelleri
Vücut duruşu algılama: Arayüzü hareketler veya vücut hareketleriyle kontrol etmek, kıyafetler için sanal deneme deneyimleri ve hastaların hareketlerini ve rehabilitasyon sürecini izleyen tele-sağlık platformları için kullanılır. Bir kişinin vücudunun resimlerini veya videolarını değerlendirirken vücut pozisyonu algılamayı seçin.
Modeller: MoveNet ve BlazePose gibi pozisyon tahmini modelleri
Yüzdeki önemli noktaları algılama: Güvenli yüz kimlik doğrulama sistemleri, kullanıcı deneyimlerini kişiselleştirmek için duygu algılama, erişilebilir kontroller için göz hareketi takibi ve gerçek zamanlı fotoğraf filtreleri veya güzellik uygulamaları için kullanılır. Bir kişinin yüzünün resimlerini veya videolarını değerlendirirken bu modeli seçin.
Modeller: MediaPipe FaceMesh ve OpenPose
El pozu algılama modelleri: Kullanıcıların el hareketleriyle gezindiği dokunmadan kullanılan arayüz kontrolleri, erişilebilirlik için işaret dili çevirisi uygulamaları ve çizim ya da tasarım için el hareketlerine yanıt veren yaratıcı araçlar için bu modelleri kullanın. Ayrıca, ekranlara dokunmanın pratik olmadığı ortamlarda (tıbbi, yemek hizmeti) veya kullanıcıların denetimlerden uzak olacağı durumlarda (ör. konuşmacıların slaytları hareketlerle kontrol ettiği sunumlar) bu cihazları kullanmayı düşünebilirsiniz.
Modeller: MediaPipe Hands gibi el pozu tahmin modelleri.
El yazısı tanıma: El yazısı notları aranabilir dijital metne dönüştürmek, not alma uygulamaları için ekran kalemi girişini işlemek ve kullanıcılar tarafından yüklenen formları veya belgeleri dijitalleştirmek için kullanılır.
Modeller: MiniCPM-o, H2OVL-Mississippi ve Surya gibi Optik Karakter Tanıma (OCR) modelleri.
Resim segmentasyonu modelleri: Tutarlı resim arka planlarının önemli olduğu veya resim düzenlemenin gerektiği durumlarda bu modelleri kullanın. Örneğin, bu araçları kullanarak arka planı hassas bir şekilde kaldırabilir, resimlerdeki belirli sorunlu alanları tespit etmek için gelişmiş içerik taraması yapabilir ve profil ile ürün fotoğrafları gibi belirli öğeleri ayırmak için gelişmiş fotoğraf düzenleme araçlarını kullanabilirsiniz.
Modeller Segment Anything (SAM), Mask R-CNN
Resim üretimi: Lisanslama olmadan, isteğe bağlı olarak yeni resimler oluşturmak için kullanılır. Bu modeller, kullanıcı profilleri için kişiselleştirilmiş avatarlar, e-ticaret katalogları için ürün resmi varyasyonları ve pazarlama veya içerik oluşturma iş akışları için özel görseller oluşturmak amacıyla kullanılabilir.
Modeller Nano Banana, Flux ve Qwen Image gibi difüzyon modelleri
Ses işleme
Ses dosyaları için bir ses işleme modeli seçin.
Ses sınıflandırması: Sesin uzman incelemesi olmadan tanımlanması ve açıklanması gerektiğinde kullanılır. Örneğin, medya yüklemelerindeki arka plan müziğinin, ortam seslerinin veya konuşma içeriklerinin anında tanımlanması, ses kitaplıkları için otomatik içerik etiketleme ve sese dayalı kullanıcı arayüzü kontrolleri.
Modeller: Wav2Vec2 ve AudioMAE
Ses üretimi: Lisanslama yapmadan isteğe bağlı olarak ses içerikleri oluşturun. Örneğin, etkileşimli web deneyimleri için özel ses efektleri oluşturmak, kullanıcı tercihlerine veya içeriğe göre arka plan müziği üretmek ve bildirim sesleri ya da arayüz geri bildirimi gibi sesli marka öğeleri oluşturmak için kullanılabilir.
Modeller: Çeşitli uzmanlaşmış ses üretimi modelleri vardır. Bunlar genellikle çok spesifik olduğundan modelleri listelemeyeceğim.
Metin okuma (TTS): Erişilebilirlik uygunluğu için yazılı içeriği tutarlı ve doğal sesli konuşmaya dönüştürme, eğitim içerikleri veya öğreticiler için seslendirme oluşturma ve metni kullanıcıların tercih ettiği dillerde okuyan çok dilli arayüzler oluşturma.
Modeller: Orpheus ve Sesame CSM
Konuşmayı metne dönüştürme (STT): İnsan konuşmasının kaydını metne dönüştürme (ör. canlı etkinlikler veya toplantılar için anlık transkripsiyon, sesle kontrol edilen gezinme ve arama işlevi, video içeriklerine erişilebilirlik için otomatik altyazı).
Modeller Whisper Web Turbo, NVIDIA Canary ve Kyutai
Metin işleme
Doğal dil sınıflandırması (NLP): Büyük miktarda metni, etiketleme sistemini ve denetleme sistemini otomatik olarak sıralamak ve yönlendirmek için kullanılır. Metin, kullanıcı mesajları veya destek talepleri olabilir. Müşteri geri bildirimlerindeki veya sosyal medya bahsindeki duyguyu tespit edebilir ve diğer kullanıcılara ulaşmadan önce spam veya uygunsuz içerikleri filtreleyebilir.
BERT, DistilBERT ve RoBERTa modelleri
Etkileşimli yapay zeka: Sohbet arayüzleri ve etkileşimli sistemler oluşturun. Müşteri desteği chatbot'ları, kişisel yapay zeka asistanları ve benzeri etkileşimli uygulamalar, LLM'lerin en iyi kullanım alanlarından bazılarıdır. Neyse ki cihazınıza sığacak kadar küçük, eğitilmesi ve istem oluşturulması için çok daha az enerji gerektiren dil modelleri var.
Modeller Gemma 2 27B, Llama 3.1 ve Qwen2.5
Çeviri modelleri: Uygulamanızda birden fazla dili desteklemek için kullanılır. Yerel dil modelleri, gerçek zamanlı dil çevirisi yapabilir, kullanıcı tarafından oluşturulan içerikleri birden fazla dilde çevirerek küresel platformlarda kullanılabilir hale getirebilir ve hassas içerikleri kullanıcının cihazında tutan özel belge çevirisi yapabilir.
Modeller: Gemma Nano, Granite 1.5B, GSmolLM3 ve Qwen 3.4B gibi SLM'ler
Besin etiketini okuma

Farklı modeller, farklı konumlardaki farklı donanımlarda çalışırken bu kaynakların farklı miktarlarını tüketir. Karşılaştırma için henüz bir standart ölçüm olmasa da bu bilgilerin yapay zeka "besin etiketlerine" eklenmesi için çalışmalar yapılmaktadır.
Margaret Mitchell ve Google'daki meslektaşları tarafından 2018'de kullanıma sunulan model kartları, modellerin kullanım amacını, sınırlamalarını, etik hususlarını ve performansını raporlamaya yönelik standartlaştırılmış bir yaklaşımdır. Günümüzde Hugging Face, Meta ve Microsoft gibi birçok şirket model kartlarının bir biçimini kullanıyor.
Yaşam döngüsü, hesap verebilirlik, yönetim ve uygunluk konularını kapsayan IBM'in Yapay Zeka Bilgi Sayfaları, kurumsal ortamlarda daha popülerdir. AB Yapay Zeka Yasası, NIST Yapay Zeka Risk Yönetimi Çerçevesi ve ISO 42001 gibi düzenleyici çerçeveler bu dokümanların oluşturulmasını zorunlu kılar.
Google, sektör genelinde çıkarım maliyeti şeffaflığı çağrısında bulundu. Bu rakamlar, model kartlarına ve bilgi sayfalarına eklenebilir. Hugging Face, model kartlarına karbon maliyetlerini ekledi ve AI Energy Score girişimi ile enerji verimliliği ölçümünü standartlaştırmak için çalışmalar yaptı.
Doğru ölçekte yapay zeka kullanımını destekleme
Doğru ölçekli yapay zeka, müşterileriniz ve işletmeniz için sürdürülebilir, yüksek performanslı ve pratik bir seçimdir.
Şirketinizin kullandığı barındırılan modellerin temel eğitim ve çıkarım kaynağı gereksinimlerini açıklamalarını zorunlu kılarak sektörün ilerlemesine katkıda bulunabilirsiniz. Yeterli sayıda müşteri şeffaflık talep ederse sağlayıcıların bu ayrıntıları yayınlama olasılığı artar.