गले लगाता चेहरा पिछले सप्ताह एक नया केस अध्ययन साझा किया गया जिसमें दिखाया गया कि कैसे छोटे भाषा मॉडल (एसएलएम) बड़े मॉडल से बेहतर प्रदर्शन कर सकते हैं। पोस्ट में, प्लेटफ़ॉर्म के शोधकर्ताओं ने दावा किया कि कृत्रिम बुद्धिमत्ता (एआई) मॉडल के प्रशिक्षण समय को बढ़ाने के बजाय, परीक्षण-समय की गणना पर ध्यान केंद्रित करने से एआई मॉडल के लिए बेहतर परिणाम दिख सकते हैं। उत्तरार्द्ध एक अनुमान रणनीति है जो एआई मॉडल को किसी समस्या को हल करने पर अधिक समय बिताने की अनुमति देती है और आत्म-शोधन और एक सत्यापनकर्ता के खिलाफ खोज जैसे विभिन्न दृष्टिकोण प्रदान करती है जो उनकी दक्षता में सुधार कर सकती है।
टेस्ट-टाइम कंप्यूट स्केलिंग कैसे काम करती है
में एक डाकहगिंग फेस ने इस बात पर प्रकाश डाला कि एआई मॉडल की क्षमताओं में सुधार के लिए पारंपरिक दृष्टिकोण अक्सर संसाधन-गहन और बेहद महंगा हो सकता है। आमतौर पर, ट्रेन-टाइम कंप्यूट नामक एक तकनीक का उपयोग किया जाता है, जहां प्रीट्रेनिंग डेटा और एल्गोरिदम का उपयोग फाउंडेशन मॉडल द्वारा किसी क्वेरी को तोड़ने और समाधान तक पहुंचने के तरीके को बेहतर बनाने के लिए किया जाता है।
वैकल्पिक रूप से, शोधकर्ताओं ने दावा किया कि टेस्ट-टाइम कंप्यूट स्केलिंग पर ध्यान केंद्रित करना, एक ऐसी तकनीक है जहां एआई मॉडल को किसी समस्या को हल करने में अधिक समय बिताने की अनुमति मिलती है और उन्हें खुद को सही करने की अनुमति मिलती है, जो समान परिणाम दिखा सकता है।
ओपनएआई के ओ1 तर्क-केंद्रित मॉडल के उदाहरण पर प्रकाश डालते हुए, जो परीक्षण-समय गणना का उपयोग करता है, शोधकर्ताओं ने कहा कि यह तकनीक प्रशिक्षण डेटा या प्रीट्रेनिंग विधियों में कोई बदलाव नहीं करने के बावजूद एआई मॉडल को बढ़ी हुई क्षमताओं को प्रदर्शित करने दे सकती है। हालाँकि, एक समस्या थी. चूंकि अधिकांश तर्क मॉडल बंद हैं, इसलिए उपयोग की जा रही रणनीतियों को जानने का कोई तरीका नहीं है।
शोधकर्ताओं ने एक अध्ययन का उपयोग किया गूगल डीपमाइंड और रिवर्स इंजीनियरिंग तकनीकें यह जानने के लिए कि एलएलएम डेवलपर्स प्रशिक्षण के बाद के चरण में परीक्षण-समय की गणना को कैसे माप सकते हैं। केस स्टडी के अनुसार, केवल प्रोसेसिंग समय बढ़ाने से जटिल प्रश्नों के आउटपुट में महत्वपूर्ण सुधार नहीं दिखता है।
इसके बजाय, शोधकर्ता एक स्व-शोधन एल्गोरिदम का उपयोग करने की सलाह देते हैं जो एआई मॉडल को बाद के पुनरावृत्तियों में प्रतिक्रियाओं का आकलन करने और संभावित त्रुटियों की पहचान करने और सही करने की अनुमति देता है। इसके अतिरिक्त, एक सत्यापनकर्ता का उपयोग करना जिसके विरुद्ध मॉडल खोज कर सकते हैं, प्रतिक्रियाओं को और बेहतर बना सकता है। ऐसे सत्यापनकर्ता एक सीखा हुआ इनाम मॉडल या हार्ड-कोडित अनुमानी हो सकते हैं।
अधिक उन्नत तकनीकों में सर्वोत्तम-से-एन दृष्टिकोण शामिल होगा जहां एक मॉडल प्रति समस्या कई प्रतिक्रियाएं उत्पन्न करता है और निर्णय लेने के लिए एक अंक प्रदान करता है जो बेहतर अनुकूल होगा। ऐसे दृष्टिकोणों को इनाम मॉडल के साथ जोड़ा जा सकता है। बीम खोज, जो चरण-दर-चरण तर्क और प्रत्येक चरण के लिए अंक निर्दिष्ट करने को प्राथमिकता देती है, शोधकर्ताओं द्वारा उजागर की गई एक और रणनीति है।
उपर्युक्त रणनीतियों का उपयोग करके, हगिंग फेस शोधकर्ता इसका उपयोग करने में सक्षम थे लामा 3बी SLM और इसे MATH-500 बेंचमार्क पर लामा 70B, जो कि एक बहुत बड़ा मॉडल है, से बेहतर प्रदर्शन देता है।
(टैग्सटूट्रांसलेट)हगिंग फेस टेस्ट टाइम कंप्यूट स्केलिंग छोटे भाषा मॉडल एलएमएस से बेहतर प्रदर्शन करते हैं हगिंग फेस(टी)एआई(टी)कृत्रिम बुद्धिमत्ता(टी)लामा
Source link