Home Technology शोधकर्ता एक कम लागत वाले एआई मॉडल बनाते हैं कि ओपनई के...

शोधकर्ता एक कम लागत वाले एआई मॉडल बनाते हैं कि ओपनई के ओ 1 कारणों का विश्लेषण करने के लिए

6
0
शोधकर्ता एक कम लागत वाले एआई मॉडल बनाते हैं कि ओपनई के ओ 1 कारणों का विश्लेषण करने के लिए



स्टैनफोर्ड विश्वविद्यालय और वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने एक ओपन-सोर्स विकसित किया है कृत्रिम होशियारी (AI) मॉडल जो Openai के O1 मॉडल के प्रदर्शन में तुलनीय है। शोधकर्ताओं का मुख्य उद्देश्य एक शक्तिशाली तर्क-केंद्रित मॉडल बनाना नहीं था, बल्कि यह समझने के लिए कि कैसे सैन फ्रांसिस्को स्थित एआई फर्म ने अपने O1 श्रृंखला मॉडल को परीक्षण समय स्केलिंग करने के लिए निर्देश दिया। विशेष रूप से, शोधकर्ता कार्यप्रणाली का प्रदर्शन करने में सक्षम थे और बहुत कम कम्प्यूट संसाधनों का उपयोग करते हुए मॉडल के व्यवहार को बहुत कम लागत पर दोहरा सकते थे।

शोधकर्ताओं ने S1-32B AI मॉडल विकसित किया

शोधकर्ताओं ने मॉडल को विकसित करने की कार्यप्रणाली और प्रक्रिया को विस्तृत किया अध्ययन प्री-प्रिंट जर्नल Arxiv में प्रकाशित। इस प्रक्रिया में एक अलग एआई मॉडल से एक सिंथेटिक डेटासेट बनाना और कई नई तकनीकों जैसे कि एब्लेशन और पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) का उपयोग करना शामिल था। मॉडल एक github में उपलब्ध है प्रविष्टि

यह ध्यान दिया जाना चाहिए कि एआई मॉडल खरोंच से नहीं बनाया गया था। डेवलपर्स ने QWEN2.5-32B-Instruct का उपयोग किया और S1-32B बड़े भाषा मॉडल (LLM) को बनाने के लिए इसे डिस्टिल्ड किया। सितंबर 2024 में जारी, मॉडल सक्षम है, लेकिन इसके आकार और तर्क क्षमताओं की कमी को देखते हुए, यह Openai के O1 से मेल नहीं खा सकता है।

प्रक्रिया के दौरान, शोधकर्ताओं ने तर्क और प्रतिक्रियाओं को उत्पन्न करने के लिए मिथुन फ्लैश थिंकिंग एप्लिकेशन प्रोसेसिंग इंटरफ़ेस (एपीआई) का उपयोग किया। प्रश्नों के कुल 59,000 ट्रिपल, तर्क के निशान (विचार या खाट की श्रृंखला), और प्रतिक्रियाएं एपीआई से निकाले गए थे। S1K नामक एक डेटासेट तब 1,000 उच्च-गुणवत्ता, विविध और कठिन प्रश्नों के साथ-साथ तर्क के निशान और प्रतिक्रियाओं का चयन करके बनाया गया था।

S1K डेटासेट बनाने के बाद, शोधकर्ताओं ने QWEN2.5-32B-Instruct मॉडल पर फाइन-ट्यूनिंग की निगरानी की। इसके लिए, बेसिक फाइन-ट्यूनिंग हाइपरपैमीटर का उपयोग किया गया था। आसवन प्रक्रिया ने 16 NVIDIA H100 GPU पर 26 मिनट का प्रशिक्षण लिया।

इस बिंदु तक, शोधकर्ताओं को इस बात का कोई अंदाजा नहीं था कि ओपनई ने मॉडल को “थिंक” करने के लिए कैसे प्रशिक्षित किया और यह सोच प्रक्रिया को रोकने में कैसे कामयाब रहा। इसके बिना, एक मॉडल अनिश्चित काल के लिए अनिश्चित काल तक उखाड़ फेंकने का जोखिम चलाता है क्योंकि यह अपने आउटपुट को मूल्यवान प्रसंस्करण शक्ति बर्बाद करने के लिए दूसरा-अनुमान लगाता है।

मॉडल को ठीक करते हुए, शोधकर्ता ने कुछ दिलचस्प पाया। उन्होंने पाया कि वे जोड़कर निष्कर्ष समय में हेरफेर कर सकते हैं और XML टैग। एक बार एक मॉडल अंतिम टैग तक पहुंच जाता है, यह अंतिम उत्तर के लिए अपनी आवाज को एक आधिकारिक स्वर में बदलने के लिए कहा जाता है। विशेष रूप से, अनुमान का समय वास्तविक समय की प्रतिक्रियाओं के निकट है जो एक विशिष्ट एआई मॉडल उत्पन्न करता है। इससे अधिक कुछ भी कोड के सावधानीपूर्वक हेरफेर की आवश्यकता होगी।

S1-32B मॉडल के साथ, शोधकर्ताओं ने एक “प्रतीक्षा” कमांड को जोड़ा, जो इसे सामान्य अनुमान अवधि से परे सोचने के लिए मजबूर करने के लिए मजबूर करता है। एक बार जोड़ने के बाद, मॉडल ने दूसरा अनुमान लगाया और अपने आउटपुट को सत्यापित किया। फिर, टैग का उपयोग या तो इस परीक्षण समय को स्केलिंग चरण को छोटा करने के लिए किया गया था या इसे लंबा किया गया था।

फिर, शोधकर्ताओं ने “वैकल्पिक रूप से”, और “हम्म” जैसे कई अन्य वाक्यांशों के साथ भी प्रयोग किया, लेकिन पाया कि “प्रतीक्षा” टैग का उपयोग करते समय सर्वश्रेष्ठ प्रदर्शन मैट्रिक्स प्राप्त किए गए थे। O1 के प्रदर्शन के करीब मॉडल को लाकर, शोधकर्ताओं का दावा है कि यह Openai द्वारा अपने तर्क मॉडल को ठीक करने के लिए उपयोग की जाने वाली विधि हो सकती है।

एक TechCrunch प्रतिवेदन दावा है कि शोधकर्ताओं ने $ 50 (लगभग 4,380 रुपये) के तहत S1-32B AI मॉडल बनाने में सक्षम थे, यह उजागर करते हुए कि तर्क मॉडल के लिए एक पोस्ट-ट्रेनिंग संरचना बनाना बहुत कम लागत पर किया जा सकता है।





Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here