সারাংশের সাথে এলএলএম ক্ষমতার তুলনা করুন

André Cipriani Bandarra

Alexandra Klepper

প্রকাশিত: 30 অক্টোবর, 2024

বৃহৎ ভাষা মডেল (LLMs) সহ বৈশিষ্ট্যগুলি তৈরি করা প্রচলিত সফ্টওয়্যার ইঞ্জিনিয়ারিং থেকে বেশ আলাদা। ডেভেলপারদের নন-ডিটারমিনিস্টিক ফলাফল, প্রি-প্রসেসিং ইনপুট এবং পোস্ট-প্রসেসিং ফলাফলগুলি পরিচালনা করার জন্য প্রম্পট ইঞ্জিনিয়ারিং শিখতে হবে।

আপনি আমাদের সাথে যে চ্যালেঞ্জগুলি ভাগ করেছেন তার মধ্যে একটি হল LLM থেকে আউটপুট পরীক্ষা করা, বৈধতা এবং গুণমান নির্ধারণ করা সময়সাপেক্ষ। বিকাশকারীরা প্রায়শই বিভিন্ন ইনপুট ব্যবহার করে আউটপুট ব্যাচ-জেনারেট করার অবলম্বন করে, তারপরে মানুষের বিচার ব্যবহার করে ম্যানুয়ালি যাচাই করে।

বিভিন্ন মডেল এবং প্রম্পটের ফলাফল মূল্যায়ন করার জন্য একটি আরও মাপযোগ্য পদ্ধতি হল বিচারক কৌশল হিসাবে এলএলএম । এই কৌশলের সাহায্যে, মানুষের বিচারের উপর নির্ভর না করে, মডেলের বৈধতা অন্য এলএলএম-এর কাছে অর্পণ করা হয়। দ্বিতীয় এলএলএম অবশ্যই একটি বড়, ক্লাউড-ভিত্তিক এলএলএম হতে হবে, যার আরও ভাল যুক্তির ক্ষমতা থাকতে পারে।

এই নথিতে, আমরা সারসংক্ষেপ ব্যবহার করি তা দেখানোর জন্য যে আপনি কীভাবে বিভিন্ন মডেলের তুলনা করতে পারেন এবং একটি বোনাস হিসাবে, Gemma থেকে Gemma 2 পর্যন্ত মানের উন্নতি দেখান।

তুলনা এবং প্রস্তুতি ডেটার জন্য মডেলগুলি চয়ন করুন

আমরা সারসংক্ষেপে তিনটি মডেলের ক্ষমতা মূল্যায়ন করেছি। আমরা Google-এর দুটি ওপেন মডেলের ফলাফল তুলনা করেছি যা ক্লায়েন্ট-সাইড চালাতে পারে, Gemma এবং Gemma 2 , উভয়ই তাদের 2 বিলিয়ন প্যারামিটার আকারে। বিপরীতে, আমরা একটি বৃহত্তর, আরও সক্ষম ক্লাউড-ভিত্তিক মডেলের মূল্যায়ন করেছি: জেমিনি 1.5 ফ্ল্যাশ ।

আমরা 2225টি বিবিসি নিবন্ধের একটি ডেটাসেট ব্যবহার করেছি, যা ব্যবসা, বিনোদন, রাজনীতি, খেলাধুলা এবং প্রযুক্তির মতো ক্ষেত্রগুলিকে কভার করে এবং আমরা প্রতিটি নির্বাচিত মডেল ব্যবহার করে প্রতিটি নিবন্ধের সারাংশ তৈরি করেছি। একই প্রম্পট সমস্ত মডেল জুড়ে ব্যবহৃত হয়েছিল:

একটি অনুচ্ছেদে নিবন্ধটি সংক্ষিপ্ত করুন।

আমরা মূল নিবন্ধগুলি সংরক্ষণ করেছি এবং একটি ডাটাবেসে সারাংশ তৈরি করেছি যাতে প্রতিটি ধাপে সেগুলি সহজেই অ্যাক্সেস করা যায়।

সারাংশ বিশ্লেষণ এবং স্কোর করার জন্য একজন বিচারক নির্বাচন করুন

সারাংশের গুণমান বিশ্লেষণ করতে, আমরা জেমিনি 1.5 ফ্ল্যাশ ব্যবহার করেছি জেমা 2B এবং জেমা 2 2B দ্বারা তৈরি সারাংশগুলি বিচার করতে। আমাদের নির্দিষ্ট পদ্ধতিটি সারিবদ্ধকরণের উপর ভিত্তি করে, যা DeepEval-এর সংক্ষিপ্তকরণ মেট্রিকের অংশ।

প্রান্তিককরণ হল একটি মেট্রিক যা কম্পাঙ্ক পরিমাপ করে যার সাহায্যে একটি সারাংশে অন্তর্ভুক্ত বিবৃতিগুলি সারাংশের উপর ভিত্তি করে মূল সামগ্রীতে সমর্থিত হয়।

আমরা মূল্যায়ন প্রক্রিয়াটিকে দুটি ধাপে বিভক্ত করেছি। প্রথমত, আমরা মডেলটিকে প্রতিটি সারাংশকে পৃথক বিবৃতিতে ভাঙ্গার জন্য অনুরোধ করেছি। তারপরে, আমরা প্রতিটি বিবৃতি মূল নিবন্ধের পাঠ্য দ্বারা সমর্থিত কিনা তা নির্ধারণ করতে মডেলটিকে অনুরোধ করেছি।

সারাংশ থেকে বিবৃতি বের করুন

আমরা জেমিনি 1.5 ফ্ল্যাশকে দীর্ঘ টেক্সটকে আলাদা স্টেটমেন্টে ভাগ করতে বলেছি। যেমন:

লিভারপুলকে হারিয়ে প্রিমিয়ারশিপে তার দল দ্বিতীয় স্থানে থাকা সত্ত্বেও এভারটনের ডিফেন্ডার ডেভিড ওয়েয়ার ইউরোপীয় ফুটবলের আলোচনা কম করেছেন।

জেমিনি 1.5 ফ্ল্যাশ এই বাক্যটিকে নিম্নলিখিত বিবৃতিগুলিতে বিভক্ত করেছে:

"ডেভিড ওয়েয়ার এভারটনের হয়ে ডিফেন্ডার হিসেবে খেলেন।"
"এভারটন বর্তমানে প্রিমিয়ারশিপে দ্বিতীয় স্থানে রয়েছে।"
সাম্প্রতিক ম্যাচে লিভারপুলকে হারিয়েছে এভারটন।
"ডেভিড ওয়্যার ইউরোপীয় ফুটবলে এভারটন খেলার বিষয়ে আলোচনা কম করেছেন।"

বিবৃতি যাচাই

আমরা তখন জেমিনি 1.5 ফ্ল্যাশকে বিভক্ত বিবৃতির তুলনায় মূল বাক্য বিশ্লেষণ করতে বলেছি। মডেলটি প্রতিটি বিবৃতির বৈধতাকে এভাবে শ্রেণীবদ্ধ করেছে:

হ্যাঁ : বিবৃতিটি মূল পাঠ্য দ্বারা সমর্থিত।
না বিবৃতিটি মূল পাঠের সাথে সাংঘর্ষিক।
আইডিকে বিবৃতিটি সমর্থিত কিনা বা এটি মূল পাঠ্যের সাথে সাংঘর্ষিক কিনা তা যাচাই করা সম্ভব নয়।

ফলাফল বিশ্লেষণ

এই প্রক্রিয়াটি দুটি মেট্রিক্সে পরিণত হয়েছে যা মডেলগুলির তুলনা করতে ব্যবহার করা যেতে পারে:

সারিবদ্ধকরণ : মডেলটি কত ঘন ঘন সারাংশ তৈরি করেছে যা মূল পাঠ্য দ্বারা সমর্থিত বিবৃতি ধারণ করে।
সমৃদ্ধি : মডেল দ্বারা উত্পন্ন একটি সারাংশে থাকা বিবৃতির গড় সংখ্যা।

প্রান্তিককরণ

অন্তত একটি বিবৃতি "না" হিসাবে চিহ্নিত সারাংশের সংখ্যা গণনা করে এবং সারাংশের মোট সংখ্যা দিয়ে ভাগ করে আমরা সারিবদ্ধতা গণনা করেছি।

জেমিনি 1.5 ফ্ল্যাশ মডেলের সর্বোচ্চ অ্যালাইনমেন্ট স্কোর রয়েছে, যা 92%-এর বেশি। এর অর্থ হল এটি সত্যের সাথে লেগে থাকতে খুব ভাল এবং জিনিসগুলি তৈরি করা এড়িয়ে যায়।

Gemma 2 2B এর 78.64% এর সম্মানজনক স্কোর রয়েছে, যা একটি ভাল স্তরের নির্ভুলতা নির্দেশ করে। এদিকে, Gemma 2B-এর পূর্ববর্তী সংস্করণে নিম্ন প্রান্তিককরণ স্কোর রয়েছে, যার অর্থ মূল পাঠ্য দ্বারা সমর্থিত নয় এমন তথ্য অন্তর্ভুক্ত করার প্রবণতা বেশি।

ঐশ্বর্য

আমরা প্রতিটি সারাংশের জন্য মডেল দ্বারা উত্পন্ন বিবৃতির সংখ্যা গড় করে মডেল সমৃদ্ধি গণনা করেছি।

Gemma 2 2B-এর সর্বোচ্চ সমৃদ্ধি স্কোর 9.1, যা ইঙ্গিত করে যে এর সারাংশে আরও বিশদ বিবরণ এবং মূল পয়েন্ট অন্তর্ভুক্ত রয়েছে। জেমিনি 1.5 ফ্ল্যাশ মডেলের উচ্চ সমৃদ্ধি স্কোর রয়েছে, 8.4 ছাড়িয়ে গেছে। Gemma 2B এর সমৃদ্ধির স্কোর কম ছিল, এটি নির্দেশ করে যে এটি মূল পাঠ্য থেকে অনেক গুরুত্বপূর্ণ তথ্য ক্যাপচার করতে পারে না।

উপসংহার

আমরা নির্ধারণ করেছি যে ছোট মডেলগুলি ক্লায়েন্ট-সাইড চালাতে সক্ষম, যেমন Gemma 2 2B, দুর্দান্ত মানের আউটপুট তৈরি করতে পারে। যদিও ক্লাউড-ভিত্তিক মডেলগুলি, যেমন জেমিনি 1.5 ফ্ল্যাশ, মূল নিবন্ধের সাথে সারিবদ্ধ সারাংশ তৈরি করতে পারদর্শী হয়, যথেষ্ট পরিমাণে তথ্য প্যাক করে, পার্থক্যটি প্রয়োগের কার্যকারিতা, গোপনীয়তা এবং সুরক্ষার প্রয়োজনীয়তার পাশাপাশি ওজন করা উচিত এবং আপনার ক্লায়েন্ট-সাইড AI তৈরি করা উচিত কিনা তা নির্ধারণ করার সময় আপনি জিজ্ঞাসা করতে পারেন এমন অন্যান্য প্রশ্ন।

জেমা মডেল পরিবারের ক্ষমতার একটি স্পষ্ট বিবর্তন রয়েছে, কারণ জেমা 2 2 বি জেমা 2 বি থেকে আরও সমৃদ্ধ এবং আরও সারিবদ্ধ সারাংশ তৈরি করতে সক্ষম।

আপনার ব্যবহারের ক্ষেত্রে মূল্যায়ন করুন

এই নথিটি শুধুমাত্র বিচারক কৌশল হিসাবে এলএলএম-এর মাধ্যমে কী সম্ভব তার উপরিভাগ স্ক্র্যাচ করেছে। এমনকি সংক্ষিপ্তকরণের সাথে, আপনি আরও মেট্রিক্স দেখতে পারেন এবং ফলাফলগুলি আলাদা হতে পারে। উদাহরণস্বরূপ, আপনি একটি নিবন্ধ থেকে মূল পয়েন্টগুলি সনাক্ত করার জন্য একটি প্রম্পট ব্যবহার করে কভারেজ মূল্যায়ন করতে পারেন, তারপর সেই মূল পয়েন্টগুলি প্রতিটি সারাংশ দ্বারা আচ্ছাদিত হলে যাচাই করার জন্য একটি ভিন্ন প্রম্পট ব্যবহার করুন৷

অন্যান্য ব্যবহারের ক্ষেত্রে, যেমন টেক্সট লেখা, টেক্সট পুনর্লিখন, বা পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) একই মেট্রিক্সের জন্য ভিন্ন ফলাফল হতে পারে বা মূল্যায়নের জন্য অন্যান্য মেট্রিক্স ব্যবহার করা উচিত।

এই পদ্ধতিটি বাস্তবায়ন করার সময়, আপনার ব্যবহারের ক্ষেত্রে কোন মেট্রিকগুলি সর্বোত্তম তা নির্ধারণ করতে একজন মানুষ কীভাবে আউটপুটকে মূল্যায়ন করবে সে সম্পর্কে চিন্তা করুন। ডিপইভালের মতো বিদ্যমান ফ্রেমওয়ার্কগুলির দিকেও নজর দেওয়া মূল্যবান, যাতে ইতিমধ্যেই আপনার ব্যবহারের ক্ষেত্রে উপযুক্ত মেট্রিক্সের একটি সেট থাকতে পারে।

আপনি মডেল মূল্যায়ন করার জন্য একজন বিচারক হিসাবে LLM প্রয়োগ করেছেন? @ChromiumDev- এ আপনার অনুসন্ধানগুলি আমাদের টুইট করুন বা LinkedIn-এ বিকাশকারীদের জন্য Chrome-এর সাথে শেয়ার করুন৷