
माइक्रोसॉफ्ट शोधकर्ताओं ने बुधवार को एक नए फाउंडेशन मॉडल की घोषणा की जो एजेंटिक कार्य कर सकता है। डब्ड मैग्मा, आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल को टेक्स्ट, इमेज, वीडियो और साथ ही स्थानिक प्रारूपों में डेटासेट की एक बड़ी मात्रा में पूर्व-प्रशिक्षित किया गया है। रेडमंड-आधारित टेक दिग्गज ने कहा कि मैग्मा विज़न-लैंग्वेज (वीएल) मॉडल का एक विस्तार है और यह न केवल मल्टीमॉडल जानकारी को समझ सकता है, बल्कि उन पर योजना बना सकता है और भी कार्य कर सकता है। AI एजेंट-सक्षम मॉडल का उपयोग कंप्यूटर विजन, उपयोगकर्ता इंटरफ़ेस (UI) नेविगेशन और रोबोट हेरफेर सहित कई कार्यों में किया जा सकता है।
Microsoft ने मैग्मा फाउंडेशन मॉडल की घोषणा की
एक github में डाकMicrosoft शोधकर्ताओं ने नए मैग्मा फाउंडेशन मॉडल को विस्तृत किया। फाउंडेशन मॉडल विशिष्ट बड़े भाषा मॉडल (एलएलएम) हैं, जो खरोंच से बने होते हैं और किसी अन्य मॉडल से आसुत नहीं होते हैं। वे अक्सर श्रृंखला में अन्य मॉडलों के लिए आधार रेखा बन जाते हैं। मैग्मा इस अर्थ में अद्वितीय है कि एआई मॉडल डेटासेट की एक विस्तृत श्रृंखला पर पूर्व-प्रशिक्षित है।
शोधकर्ताओं ने कहा कि मैग्मा के पीछे बेस आर्किटेक्चर लामा 3 एआई मॉडल है। हालांकि, मैग्मा भी दृश्य-स्थानिक दुनिया में योजना और कार्य करने की क्षमता से लैस है। यह मॉडल को न केवल एक चैटबॉट की तरह आउटपुट उत्पन्न करने की अनुमति देता है, बल्कि क्रियाओं को भी निष्पादित करता है।
इसका उपयोग एक कंप्यूटर विजन चैटबॉट के रूप में किया जा सकता है जो कैमरा सेंसर के साथ जोड़े जाने पर दुनिया के बारे में जानकारी दे सकता है। मैग्मा का उपयोग किसी डिवाइस के यूआई को नियंत्रित करने के लिए भी किया जा सकता है। लेकिन अधिक दिलचस्प बात यह है कि यह एजेंटिक क्षमताओं का उपयोग करके जटिल कार्यों को पूरा करने के लिए रोबोट को भी नियंत्रित कर सकता है।
शोधकर्ताओं ने कहा कि इन क्षमताओं के पीछे एक प्रमुख कारण दो तकनीकी घटकों-सेट-ऑफ-मार्क और ट्रेस-ऑफ-मार्क के साथ विविध डेटासेट है। पूर्व में छवियों, वीडियो और स्थानिक डेटा में एक्शन ग्राउंडिंग को सक्षम करता है, जिसमें मॉडल को छवि अंतरिक्ष में बटन या रोबोट हथियारों के लिए संख्यात्मक निशान की भविष्यवाणी करते हैं। उत्तरार्द्ध मॉडल टेम्पोरल वीडियो डायनेमिक्स को फीड करता है और कार्रवाई करने से पहले अगले फ्रेम की भविष्यवाणी करता है। यह मॉडल को एक मजबूत स्थानिक समझ विकसित करने की अनुमति देता है।
Microsoft शोधकर्ताओं ने आंतरिक परीक्षण के आधार पर AI मॉडल के बेंचमार्क स्कोर भी साझा किए। इसने Openai, अलीबाबा और Google द्वारा सभी एजेंट मूल्यांकन परीक्षणों, बेहतर प्रदर्शन मॉडल में प्रतिस्पर्धी स्कोर हासिल किया है। कंपनी ने अब तक सार्वजनिक डोमेन में मैग्मा को जारी नहीं किया है।