একটি ছোট, দক্ষ মডেল বেছে নিন

প্রকাশিত: ১০ নভেম্বর, ২০২৫

একবার আপনি সঠিক আকারের AI সম্পর্কে পড়লে, আপনি বুঝতে পারবেন যে ছোট মডেলগুলি ফাউন্ডেশন মডেলের তুলনায় বেশি টেকসই। এগুলি কম শক্তি খরচ করে এবং এমনকি ব্যবহারকারীর ডিভাইসেও চালানো যেতে পারে, যা লেটেন্সি কমায় এবং আরও কার্যকর অভিজ্ঞতা প্রদান করে।

আপনাকে ইচ্ছাকৃত হতে হবে, এবং আপনার ব্যবহারের ক্ষেত্রে সঠিক মডেলটি বেছে নিতে হবে।

কিন্তু আপনার কোন মডেলটি প্রয়োজন তা কীভাবে নির্ধারণ করবেন? একটি পদ্ধতি হল আপনার অ্যাপ্লিকেশনের সাফল্যের মেট্রিক্স নির্ধারণ করা, তারপর একটি ফাউন্ডেশন মডেল ব্যবহার করে প্রোটোটাইপ তৈরি করা। সম্প্রতি, খবরে থাকা অনেক ফাউন্ডেশন মডেল হল বৃহৎ ভাষা মডেল (LLM) , ফাউন্ডেশন মডেলগুলিতে ভবিষ্যদ্বাণীমূলক AIও অন্তর্ভুক্ত রয়েছে, যা বিশেষায়িত এবং আপনার ব্যবহারের ক্ষেত্রে আরও উপযুক্ত হতে পারে।

সাফল্যের মেট্রিক্স যাচাই করার পর, ছোট মডেল ব্যবহার করুন এবং পরীক্ষা করুন যতক্ষণ না আপনি আপনার সাফল্যের মানদণ্ড পূরণ করে এমন ফলাফল তৈরি করে এমন ক্ষুদ্রতম মডেল খুঁজে পান।

প্রোটোটাইপ বড়, স্থাপন ছোট

আপনার সঠিক আকারের মডেলটি বেছে নিতে, এই পদক্ষেপগুলি অনুসরণ করুন:

  1. তোমার কাজটি সম্ভব কিনা তা প্রমাণ করো । তুমি যা করার চেষ্টা করছো তা আদৌ সম্ভব কিনা তা পরীক্ষা করে দেখো সবচেয়ে বড় সম্ভাব্য মডেল ব্যবহার করে। এটি হতে পারে একটি বৃহৎ ভাষা মডেল, যেমন জেমিনি ২.৫ প্রো, অথবা অন্য কোনও ভিত্তি মডেল।
  2. সাফল্যের মানদণ্ড নির্ধারণ করুন । ইনপুট এবং আদর্শ আউটপুটগুলির একটি সেট সংগ্রহ করুন। উদাহরণস্বরূপ, একটি অনুবাদ অ্যাপ্লিকেশনে ইংরেজিতে বাক্যাংশের ইনপুট এবং স্প্যানিশ ভাষায় সঠিকভাবে অনুবাদ করা বাক্যাংশগুলির আউটপুট থাকতে পারে।
  3. ছোট থেকে বড় পরীক্ষা করুন । আপনার পরীক্ষার মানদণ্ডের সাথে ছোট মডেলের ফলাফলের তুলনা করুন। ছোট মডেল থেকে উপরে উঠে আসুন। দ্রুত প্রকৌশল আপনাকে আরও ভালো ফলাফল পেতে সাহায্য করতে পারে। আপনার ছোট মডেল থেকে আরও ভালো ফলাফল পেতে সাহায্য করার জন্য আপনি আউটপুট তুলনা করার জন্য একটি বড় মডেলও নিয়োগ করতে পারেন।
  4. আপনার ব্যবহারের ক্ষেত্রে গ্রহণযোগ্য প্রতিক্রিয়া প্রদানকারী ক্ষুদ্রতম মডেলটি নির্বাচন করুন । উদাহরণস্বরূপ, ক্ষুদ্রতম মডেলটি সঠিকভাবে অনুবাদ আউটপুট করে।

মডেলটি যেখানেই হোস্ট করা হোক না কেন, যদি এটি ডিভাইসে থাকার জন্য যথেষ্ট ছোট হয় বা এখনও সার্ভারে হোস্ট করার প্রয়োজন হয়, তাহলে বড় মডেলের চেয়ে ছোট মডেল ব্যবহার করা বেশি কার্যকর।

মডেলের ধরণ

আমি মডেলগুলিকে তাদের প্রক্রিয়াজাতকরণ ডেটা অনুসারে শ্রেণীবদ্ধ করেছি: ভিজ্যুয়াল , অডিও এবং টেক্সট । আমি আপনাকে উদাহরণ ব্যবহারের ক্ষেত্রে এবং কিছু উপলব্ধ মডেলের মাধ্যমে নিয়ে যাব।

ভিজ্যুয়াল প্রক্রিয়াকরণ

ভিজ্যুয়াল প্রক্রিয়াকরণ স্থির চিত্র বা ভিডিওর মূল্যায়ন হতে পারে।

  • ছবির শ্রেণীবিভাগ : অ্যাক্সেসিবিলিটি কমপ্লায়েন্সের জন্য অল্ট-টেক্সট জেনারেশন থেকে শুরু করে কন্টেন্ট স্ক্রীনিং পর্যন্ত সবকিছুর জন্য ব্যবহার করুন যাতে ব্যবহারকারীদের কাছে পৌঁছানোর আগে অনুপযুক্ত ছবি ফিল্টার করা যায়। যখন কোনও ছবিতে কী আছে তা বুঝতে হবে, তখন মানবিক পর্যালোচনা ছাড়াই এই ছবির শ্রেণীবিভাগটি বেছে নিন।

    মডেল: MobileNet, ResNeXt, এবং ConvNeXt

  • বস্তু সনাক্তকরণ : ছবি বা ভিডিও স্ট্রিমগুলিতে নির্দিষ্ট বস্তু ট্যাগ করুন, বাস্তব-বিশ্বের বস্তুর প্রতি সাড়া দেয় এমন ইন্টারেক্টিভ AR অভিজ্ঞতা তৈরি করুন, অথবা এমন ইনভেন্টরি ম্যানেজমেন্ট সিস্টেম তৈরি করুন যা আইটেম সনাক্ত করতে এবং গণনা করতে পারে। যখন আপনার কাছে কোনও জড় বস্তুর ছবি বা ভিডিও থাকে তখন বস্তু সনাক্তকরণ বেছে নিন।

    মডেল অবজেক্ট সনাক্তকরণ মডেল, যেমন YOLOv8 এবং DETR

  • বডি পোজ ডিটেকশন : অঙ্গভঙ্গি বা শরীরের নড়াচড়ার সাথে ইন্টারফেস নিয়ন্ত্রণ, পোশাকের জন্য ভার্চুয়াল ট্রাই-অন অভিজ্ঞতা এবং রোগীর নড়াচড়া এবং পুনর্বাসনের অগ্রগতি পর্যবেক্ষণকারী টেলিহেলথ প্ল্যাটফর্মের জন্য ব্যবহার করুন। কোনও ব্যক্তির শরীরের ছবি বা ভিডিও মূল্যায়ন করার সময় বডি পোজ ডিটেকশন বেছে নিন।

    মডেল পোজ অনুমান মডেল, যেমন মুভনেট এবং ব্লেজপোজ

  • ফেস কীপয়েন্ট সনাক্তকরণ : নিরাপদ ফেসিয়াল প্রমাণীকরণ সিস্টেম, ব্যবহারকারীর অভিজ্ঞতা ব্যক্তিগতকৃত করার জন্য আবেগ সনাক্তকরণ, অ্যাক্সেসযোগ্য নিয়ন্ত্রণের জন্য চোখের নড়াচড়া ট্র্যাকিং এবং রিয়েল-টাইম ফটো ফিল্টার বা সৌন্দর্য অ্যাপ্লিকেশনের জন্য ব্যবহার করুন। কোনও ব্যক্তির মুখের ছবি বা ভিডিও মূল্যায়ন করার সময় এই মডেলটি বেছে নিন।

    মডেল মিডিয়াপাইপ ফেসমেশ এবং ওপেনপোজ

  • হাতের ভঙ্গি সনাক্তকরণ মডেল : এই মডেলগুলি স্পর্শ-মুক্ত ইন্টারফেস নিয়ন্ত্রণের জন্য ব্যবহার করুন যেখানে ব্যবহারকারীরা হাতের অঙ্গভঙ্গি দিয়ে নেভিগেট করেন, অ্যাক্সেসযোগ্যতার জন্য সাইন ল্যাঙ্গুয়েজ অনুবাদ অ্যাপ্লিকেশন এবং অঙ্কন বা নকশার জন্য হাতের নড়াচড়ায় সাড়া দেয় এমন সৃজনশীল সরঞ্জাম। এছাড়াও, এমন পরিবেশে এগুলি ব্যবহার করার কথা বিবেচনা করুন যেখানে স্ক্রিন স্পর্শ করা অবাস্তব (চিকিৎসা, খাদ্য পরিষেবা) অথবা যখন ব্যবহারকারীরা নিয়ন্ত্রণ থেকে দূরে থাকবেন, যেমন উপস্থাপনা যেখানে স্পিকার অঙ্গভঙ্গি দিয়ে স্লাইড নিয়ন্ত্রণ করে।

    মডেল হাতের ভঙ্গি অনুমানের মডেল, যেমন মিডিয়াপাইপ হাত।

  • হাতের লেখা স্বীকৃতি : হাতে লেখা নোটগুলিকে অনুসন্ধানযোগ্য ডিজিটাল টেক্সটে রূপান্তর করতে, নোট নেওয়ার অ্যাপ্লিকেশনগুলির জন্য স্টাইলাস ইনপুট প্রক্রিয়াকরণ করতে এবং ব্যবহারকারীদের দ্বারা আপলোড করা ফর্ম বা নথিগুলিকে ডিজিটাইজ করতে ব্যবহার করা হয়।

    মডেল অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) মডেল, যেমন MiniCPM-o, H2OVL-মিসিসিপি, এবং সূর্য।

  • চিত্র বিভাজন মডেল : কখন সামঞ্জস্যপূর্ণ চিত্রের ব্যাকগ্রাউন্ড গুরুত্বপূর্ণ বা চিত্র সম্পাদনা প্রয়োজন তা চয়ন করুন। উদাহরণস্বরূপ, আপনি এগুলি সুনির্দিষ্ট ব্যাকগ্রাউন্ড অপসারণের জন্য, চিত্রের মধ্যে উদ্বেগের নির্দিষ্ট ক্ষেত্রগুলি সনাক্ত করার জন্য উন্নত সামগ্রী স্ক্রীনিং এবং প্রোফাইল এবং পণ্যের ফটোগুলির মতো নির্দিষ্ট উপাদানগুলিকে আলাদা করার জন্য অত্যাধুনিক ফটো সম্পাদনা সরঞ্জামগুলি ব্যবহার করতে পারেন।

    মডেলস সেগমেন্ট এনিথিং (SAM), মাস্ক আর-সিএনএন

  • ইমেজ জেনারেশন : লাইসেন্স ছাড়াই চাহিদা অনুযায়ী নতুন ছবি তৈরি করতে ব্যবহার করা যেতে পারে। এই মডেলগুলি ব্যবহারকারীর প্রোফাইলের জন্য ব্যক্তিগতকৃত অবতার, ই-কমার্স ক্যাটালগের জন্য পণ্যের ছবির বৈচিত্র্য এবং মার্কেটিং বা কন্টেন্ট তৈরির কর্মপ্রবাহের জন্য কাস্টম ভিজ্যুয়াল তৈরি করতে ব্যবহার করা যেতে পারে।

    মডেল ডিফিউশন মডেল, যেমন ন্যানো ব্যানানা, ফ্লাক্স এবং কিউয়েন ইমেজ

অডিও প্রক্রিয়াকরণ

অডিও ফাইলের জন্য একটি অডিও প্রক্রিয়াকরণ মডেল বেছে নিন।

  • অডিও শ্রেণীবিভাগ : যখন অডিও শনাক্ত এবং বর্ণনা করার প্রয়োজন হয়, তখন মানব পর্যালোচনা ছাড়াই ব্যবহার করুন। উদাহরণস্বরূপ, মিডিয়া আপলোডে ব্যাকগ্রাউন্ড মিউজিক, পরিবেশগত শব্দ, অথবা কথ্য সামগ্রীর রিয়েল-টাইম শনাক্তকরণ, অডিও লাইব্রেরির জন্য স্বয়ংক্রিয় কন্টেন্ট ট্যাগিং এবং শব্দ-ভিত্তিক ব্যবহারকারী ইন্টারফেস নিয়ন্ত্রণ।

    মডেল Wav2Vec2 এবং AudioMAE

  • অডিও জেনারেশন : লাইসেন্স ছাড়াই চাহিদা অনুযায়ী অডিও কন্টেন্ট তৈরি করুন। উদাহরণস্বরূপ, এটি ইন্টারেক্টিভ ওয়েব অভিজ্ঞতার জন্য কাস্টম সাউন্ড এফেক্ট তৈরি করতে, ব্যবহারকারীর পছন্দ বা কন্টেন্ট থেকে ব্যাকগ্রাউন্ড মিউজিক তৈরি করতে এবং নোটিফিকেশন সাউন্ড বা ইন্টারফেস ফিডব্যাকের মতো অডিও ব্র্যান্ডিং উপাদান তৈরি করতে ব্যবহার করা যেতে পারে।

    মডেল বিভিন্ন বিশেষায়িত অডিও জেনারেশন মডেল আছে। এগুলো সাধারণত হাইপার-স্পেসিফিক, তাই আমি মডেলগুলির তালিকা করব না।

  • টেক্সট-টু-স্পিচ (TTS) : অ্যাক্সেসিবিলিটি সম্মতির জন্য লিখিত বিষয়বস্তুকে সামঞ্জস্যপূর্ণ, স্বাভাবিক-শব্দযুক্ত বক্তৃতায় রূপান্তর করুন, শিক্ষামূলক বিষয়বস্তু বা টিউটোরিয়ালের জন্য ভয়েস-ওভার বর্ণনা তৈরি করুন এবং ব্যবহারকারীদের পছন্দের ভাষায় টেক্সট বলতে পারে এমন বহুভাষিক ইন্টারফেস তৈরি করুন।

    মডেল অরফিয়াস এবং তিল সিএসএম

  • স্পিচ-টু-টেক্সট (STT) : মানুষের বক্তৃতার রেকর্ডিং ট্রান্সক্রাইব করুন, যেমন লাইভ ইভেন্ট বা মিটিংয়ের জন্য রিয়েল-টাইম ট্রান্সক্রিপশন, ভয়েস-নিয়ন্ত্রিত নেভিগেশন এবং অনুসন্ধান কার্যকারিতা এবং ভিডিও কন্টেন্ট অ্যাক্সেসিবিলিটির জন্য স্বয়ংক্রিয় ক্যাপশনিং।

    মডেল হুইস্পার ওয়েব টার্বো, এনভিআইডিআইএ ক্যানারি এবং কিউতাই

টেক্সট প্রক্রিয়াকরণ

  • প্রাকৃতিক ভাষার শ্রেণীবিভাগ (NLP) : প্রচুর পরিমাণে টেক্সট, ট্যাগিং সিস্টেম এবং মডারেশন সিস্টেম স্বয়ংক্রিয়ভাবে সাজানো এবং রুট করার জন্য ব্যবহার করা হয়। টেক্সটটি ব্যবহারকারীর বার্তা বা সহায়তা টিকিট, গ্রাহক প্রতিক্রিয়া বা সোশ্যাল মিডিয়া উল্লেখগুলিতে অনুভূতি সনাক্তকরণ এবং স্প্যাম বা অনুপযুক্ত সামগ্রী অন্যান্য ব্যবহারকারীদের কাছে পৌঁছানোর আগে ফিল্টার করা হতে পারে।

    মডেল BERT, DistilBERT, এবং RoBERTa

  • কথোপকথনমূলক AI : চ্যাট ইন্টারফেস এবং কথোপকথনমূলক সিস্টেম তৈরি করুন। গ্রাহক সহায়তা চ্যাটবট, ব্যক্তিগত AI সহকারী এবং অনুরূপ কথোপকথনমূলক মিথস্ক্রিয়া LLM-এর জন্য সেরা ব্যবহারের কিছু ক্ষেত্রে। সৌভাগ্যবশত, আপনার ডিভাইসে ফিট করার জন্য যথেষ্ট ছোট ভাষা মডেল রয়েছে, যাদের প্রশিক্ষণ এবং প্রম্পট করার জন্য অনেক কম শক্তি প্রয়োজন।

    মডেলগুলি জেমা ২ ২৭বি, লামা ৩.১, এবং কিউয়েন ২.৫

  • অনুবাদ মডেল আপনার অ্যাপ্লিকেশনে একাধিক ভাষা সমর্থন করার জন্য ব্যবহার করুন। স্থানীয় ভাষার মডেলগুলি রিয়েল-টাইম ভাষা অনুবাদ পরিচালনা করতে পারে, বিশ্বব্যাপী প্ল্যাটফর্মের জন্য ব্যবহারকারী-উত্পাদিত সামগ্রীকে একাধিক ভাষায় রূপান্তর করতে পারে এবং ব্যক্তিগত নথি অনুবাদ সক্ষম করতে পারে যা ব্যবহারকারীর ডিভাইসে সংবেদনশীল সামগ্রী রাখে।

    জেমা ন্যানো, গ্রানাইট ১.৫বি, জিএসমোলএলএম৩, এবং কিউয়েন ৩.৪বি এর মতো মডেল এসএলএম

পুষ্টির লেবেলটি পড়ুন

বিভিন্ন মডেল বিভিন্ন স্থানে বিভিন্ন হার্ডওয়্যারে চলার সময় এই সম্পদের বিভিন্ন পরিমাণ ব্যবহার করে। পরিমাপের এমন কোনও মানদণ্ড এখনও তৈরি হয়নি যার বিরুদ্ধে মান নির্ধারণ করা যায়, তবে এই তথ্য AI "পুষ্টি লেবেল"-এ প্রবেশের জন্য একটি আন্দোলন চলছে।

২০১৮ সালে মার্গারেট মিচেল এবং গুগলের সহকর্মীদের দ্বারা প্রবর্তিত মডেল কার্ডগুলি হল মডেলগুলির উদ্দেশ্যমূলক ব্যবহার, সীমাবদ্ধতা, নীতিগত বিবেচনা এবং কর্মক্ষমতা রিপোর্ট করার জন্য একটি প্রমিত পদ্ধতি। আজ, অনেক কোম্পানি মডেল কার্ডের একটি রূপ ব্যবহার করছে, যার মধ্যে রয়েছে হাগিং ফেস, মেটা, মাইক্রোসফ্ট।

আইবিএমের এআই ফ্যাক্টশিট , যা জীবনচক্র, জবাবদিহিতা, শাসনব্যবস্থা, সম্মতি কভার করে, এন্টারপ্রাইজ পরিবেশে আরও জনপ্রিয়। ইইউ এআই আইন, এনআইএসটি এআই ঝুঁকি ব্যবস্থাপনা কাঠামো এবং আইএসও 42001 এর মতো নিয়ন্ত্রক কাঠামোগুলির জন্য এই ডকুমেন্টেশনের প্রয়োজন।

গুগল ইন্ডাস্ট্রি জুড়ে অনুমান ব্যয়ের স্বচ্ছতার আহ্বান জানিয়েছে। এই পরিসংখ্যানগুলি মডেল কার্ড এবং ফ্যাক্টশিটে যোগ করা যেতে পারে। হাগিং ফেস তাদের মডেল কার্ডগুলিতে কার্বন খরচ যুক্ত করেছে এবং তারা এআই এনার্জি স্কোর উদ্যোগের মাধ্যমে শক্তি দক্ষতা পরিমাপকে মানসম্মত করার প্রচেষ্টা চালিয়েছে।

সঠিক আকারের AI-এর পক্ষে উকিল

ডান-আকারের AI হল আপনার গ্রাহকদের জন্য, সেইসাথে আপনার ব্যবসার জন্য টেকসই, কার্যকরী এবং বাস্তবসম্মত পছন্দ।

আপনার কোম্পানি যেসব হোস্টেড মডেল গ্রহণ করে তাদের বেসলাইন প্রশিক্ষণ এবং অনুমানমূলক রিসোর্সের প্রয়োজনীয়তা প্রকাশ করার নির্দেশ দিয়ে আপনি শিল্পকে এগিয়ে নিয়ে যেতে পারেন। যদি পর্যাপ্ত গ্রাহক স্বচ্ছতা দাবি করেন, তাহলে সরবরাহকারীরা সেই বিবরণ প্রকাশ করার সম্ভাবনা বেশি থাকে।