লার্জ ল্যাঙ্গুয়েজ মডেলে (LLMs) "L" বিশাল স্কেল প্রস্তাব করে, বাস্তবতা আরও সূক্ষ্ম। কিছু এলএলএম ট্রিলিয়ন প্যারামিটার ধারণ করে, এবং অন্যরা কার্যকরভাবে কাজ করে অনেক কম।
কয়েকটি বাস্তব-বিশ্বের উদাহরণ এবং বিভিন্ন মডেলের আকারের ব্যবহারিক প্রভাব দেখুন।
এলএলএম সাইজ এবং সাইজ ক্লাস
ওয়েব ডেভেলপার হিসাবে, আমরা একটি সম্পদের আকারকে এটির ডাউনলোড আকার হিসাবে ভাবি। একটি মডেলের নথিভুক্ত আকার পরিবর্তে এর পরামিতিগুলির সংখ্যা বোঝায়। উদাহরণস্বরূপ, Gemma 2B 2 বিলিয়ন প্যারামিটার সহ জেমাকে বোঝায়।
এলএলএম-এর কয়েক লক্ষ, লক্ষ লক্ষ, বিলিয়ন বা এমনকি ট্রিলিয়ন প্যারামিটার থাকতে পারে।
বৃহত্তর এলএলএম-এ তাদের ছোট অংশের তুলনায় অনেক বেশি প্যারামিটার থাকে, যা তাদের আরও জটিল ভাষার সম্পর্ক ক্যাপচার করতে এবং সূক্ষ্ম প্রম্পটগুলি পরিচালনা করতে দেয়। তারা প্রায়শই বড় ডেটাসেটে প্রশিক্ষণপ্রাপ্ত হয়।
আপনি হয়তো লক্ষ্য করেছেন যে নির্দিষ্ট মডেলের আকার, যেমন 2 বিলিয়ন বা 7 বিলিয়ন, সাধারণ। উদাহরণস্বরূপ, জেমা 2 বি, জেমা 7 বি বা মিস্ট্রাল 7 বি । মডেল আকার ক্লাস আনুমানিক গ্রুপিং হয়. উদাহরণস্বরূপ, Gemma 2B এর আনুমানিক 2 বিলিয়ন প্যারামিটার রয়েছে, কিন্তু ঠিক নয়।
মডেল সাইজ ক্লাস LLM কর্মক্ষমতা পরিমাপ করার জন্য একটি ব্যবহারিক উপায় অফার করে। বক্সিং-এ তাদের ওজন ক্লাসের মতো মনে করুন: একই আকারের ক্লাসের মধ্যে মডেলগুলি আরও তুলনামূলক। দুটি 2B মডেল অনুরূপ কর্মক্ষমতা প্রদান করা উচিত.
এটি বলেছে, একটি ছোট মডেল নির্দিষ্ট কাজের জন্য একটি বড় মডেলের সমান পারফরম্যান্সের সমান হতে পারে ।
যদিও GPT-4 এবং জেমিনি প্রো বা আল্ট্রার মতো সাম্প্রতিকতম অত্যাধুনিক LLM-এর মডেলের আকারগুলি সর্বদা প্রকাশ করা হয় না, সেগুলি শত শত বিলিয়ন বা ট্রিলিয়ন প্যারামিটারের মধ্যে রয়েছে বলে বিশ্বাস করা হয়৷
সমস্ত মডেল তাদের নামে প্যারামিটারের সংখ্যা নির্দেশ করে না। কিছু মডেল তাদের সংস্করণ নম্বর সঙ্গে প্রত্যয়িত হয়. উদাহরণস্বরূপ, জেমিনি 1.5 প্রো মডেলের 1.5 সংস্করণকে বোঝায় (পরবর্তী সংস্করণ 1)।
এলএলএম নাকি?
যখন একটি মডেল এলএলএম হতে খুব ছোট হয়? এলএলএম-এর সংজ্ঞা এআই এবং এমএল সম্প্রদায়ের মধ্যে কিছুটা তরল হতে পারে।
কেউ কেউ বিলিয়ন প্যারামিটার সহ সবচেয়ে বড় মডেলকে সত্যিকারের এলএলএম বলে মনে করেন, যখন ডিস্টিলবার্টের মতো ছোট মডেলগুলিকে সাধারণ এনএলপি মডেল হিসাবে বিবেচনা করা হয়। অন্যদের মধ্যে LLM-এর সংজ্ঞায় ছোট, কিন্তু এখনও শক্তিশালী, মডেলগুলি অন্তর্ভুক্ত রয়েছে, যেমন ডিস্টিলবার্ট।
ডিভাইসে ব্যবহারের ক্ষেত্রে ছোট এলএলএম
বৃহত্তর এলএলএম-এর জন্য প্রচুর স্টোরেজ স্পেস এবং অনুমানের জন্য প্রচুর কম্পিউট পাওয়ার প্রয়োজন। তাদের নির্দিষ্ট হার্ডওয়্যার (যেমন TPUs) সহ উত্সর্গীকৃত শক্তিশালী সার্ভারগুলিতে চালানো দরকার।
ওয়েব ডেভেলপার হিসেবে আমরা একটি বিষয়ে আগ্রহী, একটি মডেল ব্যবহারকারীর ডিভাইসে ডাউনলোড এবং চালানোর জন্য যথেষ্ট ছোট কিনা।
কিন্তু, উত্তর দেওয়া কঠিন প্রশ্ন! আজ অবধি, কয়েকটি কারণে "এই মডেলটি বেশিরভাগ মিড-রেঞ্জ ডিভাইসে চলতে পারে" জানার কোন সহজ উপায় নেই:
- মেমরি, GPU/CPU স্পেস এবং আরও অনেক কিছু জুড়ে ডিভাইসের ক্ষমতা ব্যাপকভাবে পরিবর্তিত হয়। একটি লো-এন্ড অ্যান্ড্রয়েড ফোন এবং একটি NVIDIA® RTX ল্যাপটপ সম্পূর্ণ আলাদা। আপনার ব্যবহারকারীদের কি ডিভাইস আছে সে সম্পর্কে আপনার কিছু ডেটা পয়েন্ট থাকতে পারে। ওয়েব অ্যাক্সেস করার জন্য ব্যবহৃত বেসলাইন ডিভাইসের জন্য আমাদের কাছে এখনও কোনো সংজ্ঞা নেই।
- একটি মডেল বা ফ্রেমওয়ার্ক যা এটি চালায় তা নির্দিষ্ট হার্ডওয়্যারে চালানোর জন্য অপ্টিমাইজ করা যেতে পারে।
- একটি নির্দিষ্ট এলএলএম ডাউনলোড এবং একটি নির্দিষ্ট ডিভাইসে চালানো যায় কিনা তা নির্ধারণ করার কোন প্রোগ্রামেটিক উপায় নেই। একটি ডিভাইসের ডাউনলোড ক্ষমতা নির্ভর করে GPU-তে কতটা VRAM আছে তার উপর, অন্যান্য কারণের মধ্যে।
যাইহোক, আমাদের কিছু অভিজ্ঞতামূলক জ্ঞান আছে: আজ, কয়েক মিলিয়ন থেকে কয়েক বিলিয়ন প্যারামিটার সহ কিছু মডেল ব্রাউজারে, গ্রাহক-গ্রেড ডিভাইসে চলতে পারে।
উদাহরণ স্বরূপ:
- MediaPipe LLM ইনফারেন্স API সহ Gemma 2B (এমনকি শুধুমাত্র CPU-র ডিভাইসের জন্য উপযুক্ত)। এটা চেষ্টা করুন .
- Transformers.js এর সাথে DistilBERT।
এটি একটি নবজাত ক্ষেত্র। আপনি ল্যান্ডস্কেপ বিকশিত হবে আশা করতে পারেন:
- WebAssembly এবং WebGPU উদ্ভাবনের সাথে, WebGPU আরও লাইব্রেরিতে অবতরণ, নতুন লাইব্রেরি এবং অপ্টিমাইজেশানগুলিকে সমর্থন করে, আশা করে যে ব্যবহারকারীর ডিভাইসগুলি ক্রমবর্ধমানভাবে দক্ষতার সাথে বিভিন্ন আকারের LLM চালাতে সক্ষম হবে।
- উদীয়মান সঙ্কুচিত কৌশলগুলির মাধ্যমে ছোট, উচ্চ কার্যকারিতাপূর্ণ LLMগুলি ক্রমশ সাধারণ হয়ে উঠবে বলে আশা করুন৷
ছোট এলএলএম-এর জন্য বিবেচনা
ছোট এলএলএম-এর সাথে কাজ করার সময়, আপনার সর্বদা কর্মক্ষমতা এবং ডাউনলোডের আকার বিবেচনা করা উচিত।
কর্মক্ষমতা
যে কোন মডেলের ক্ষমতা আপনার ব্যবহারের ক্ষেত্রে অনেক বেশি নির্ভর করে! আপনার ব্যবহারের ক্ষেত্রে একটি ছোট এলএলএম ফাইন টিউন করা একটি বড় জেনেরিক এলএলএম থেকে ভাল পারফর্ম করতে পারে।
যাইহোক, একই মডেল পরিবারের মধ্যে, ছোট এলএলএমগুলি তাদের বড় অংশগুলির তুলনায় কম সক্ষম। একই ব্যবহারের ক্ষেত্রে, একটি ছোট এলএলএম ব্যবহার করার সময় আপনাকে সাধারণত আরও প্রম্পট ইঞ্জিনিয়ারিং কাজ করতে হবে।
ডাউনলোড সাইজ
আরও পরামিতি মানে একটি বড় ডাউনলোডের আকার, যা ডিভাইসে ব্যবহারের ক্ষেত্রে যুক্তিসঙ্গতভাবে ডাউনলোড করা যেতে পারে কি না তাও প্রভাবিত করে।
প্যারামিটারের সংখ্যার উপর ভিত্তি করে একটি মডেলের ডাউনলোড আকার গণনা করার কৌশল থাকলেও, এটি জটিল হতে পারে।
2024 সালের প্রথম দিকে, মডেল ডাউনলোডের আকার খুব কমই নথিভুক্ত করা হয়। সুতরাং, আপনার ডিভাইসে এবং ব্রাউজার-এর ব্যবহারের ক্ষেত্রে, আমরা আপনাকে Chrome DevTools-এর নেটওয়ার্ক প্যানেলে বা অন্যান্য ব্রাউজার বিকাশকারী সরঞ্জামগুলির সাথে অভিজ্ঞতাগতভাবে ডাউনলোডের আকার দেখার পরামর্শ দিই৷
মিডিয়াপাইপ এলএলএম ইনফারেন্স API- এর সাথে জেমা ব্যবহার করা হয়। DistilBERT Transformers.js এর সাথে ব্যবহার করা হয়।
মডেল সঙ্কুচিত কৌশল
একটি মডেলের মেমরির প্রয়োজনীয়তা উল্লেখযোগ্যভাবে হ্রাস করার জন্য একাধিক কৌশল বিদ্যমান:
- LoRA (নিম্ন-র্যাঙ্ক অভিযোজন) : সূক্ষ্ম টিউনিং কৌশল যেখানে প্রাক-প্রশিক্ষিত ওজন হিমায়িত করা হয়। LoRA সম্পর্কে আরও পড়ুন ।
- ছাঁটাই : এর আকার কমাতে মডেল থেকে কম গুরুত্বপূর্ণ ওজন অপসারণ করা।
- কোয়ান্টাইজেশন : ভাসমান-বিন্দু সংখ্যা (যেমন, 32-বিট) থেকে নিম্ন-বিট উপস্থাপনা (যেমন, 8-বিট) থেকে ওজনের নির্ভুলতা হ্রাস করা।
- জ্ঞান পাতন : একটি বৃহত্তর, প্রাক-প্রশিক্ষিত মডেলের আচরণ অনুকরণ করার জন্য একটি ছোট মডেলকে প্রশিক্ষণ দেওয়া।
- পরামিতি ভাগ করা : মডেলের একাধিক অংশের জন্য একই ওজন ব্যবহার করে, অনন্য প্যারামিটারের মোট সংখ্যা হ্রাস করে।