Home Technology Microsoft का Magma AI मॉडल रोबोटिक्स कार्यों को स्वचालित कर सकता है

Microsoft का Magma AI मॉडल रोबोटिक्स कार्यों को स्वचालित कर सकता है

0
Microsoft का Magma AI मॉडल रोबोटिक्स कार्यों को स्वचालित कर सकता है



माइक्रोसॉफ्ट शोधकर्ताओं ने बुधवार को एक नए फाउंडेशन मॉडल की घोषणा की जो एजेंटिक कार्य कर सकता है। डब्ड मैग्मा, आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल को टेक्स्ट, इमेज, वीडियो और साथ ही स्थानिक प्रारूपों में डेटासेट की एक बड़ी मात्रा में पूर्व-प्रशिक्षित किया गया है। रेडमंड-आधारित टेक दिग्गज ने कहा कि मैग्मा विज़न-लैंग्वेज (वीएल) मॉडल का एक विस्तार है और यह न केवल मल्टीमॉडल जानकारी को समझ सकता है, बल्कि उन पर योजना बना सकता है और भी कार्य कर सकता है। AI एजेंट-सक्षम मॉडल का उपयोग कंप्यूटर विजन, उपयोगकर्ता इंटरफ़ेस (UI) नेविगेशन और रोबोट हेरफेर सहित कई कार्यों में किया जा सकता है।

Microsoft ने मैग्मा फाउंडेशन मॉडल की घोषणा की

एक github में डाकMicrosoft शोधकर्ताओं ने नए मैग्मा फाउंडेशन मॉडल को विस्तृत किया। फाउंडेशन मॉडल विशिष्ट बड़े भाषा मॉडल (एलएलएम) हैं, जो खरोंच से बने होते हैं और किसी अन्य मॉडल से आसुत नहीं होते हैं। वे अक्सर श्रृंखला में अन्य मॉडलों के लिए आधार रेखा बन जाते हैं। मैग्मा इस अर्थ में अद्वितीय है कि एआई मॉडल डेटासेट की एक विस्तृत श्रृंखला पर पूर्व-प्रशिक्षित है।

शोधकर्ताओं ने कहा कि मैग्मा के पीछे बेस आर्किटेक्चर लामा 3 एआई मॉडल है। हालांकि, मैग्मा भी दृश्य-स्थानिक दुनिया में योजना और कार्य करने की क्षमता से लैस है। यह मॉडल को न केवल एक चैटबॉट की तरह आउटपुट उत्पन्न करने की अनुमति देता है, बल्कि क्रियाओं को भी निष्पादित करता है।

इसका उपयोग एक कंप्यूटर विजन चैटबॉट के रूप में किया जा सकता है जो कैमरा सेंसर के साथ जोड़े जाने पर दुनिया के बारे में जानकारी दे सकता है। मैग्मा का उपयोग किसी डिवाइस के यूआई को नियंत्रित करने के लिए भी किया जा सकता है। लेकिन अधिक दिलचस्प बात यह है कि यह एजेंटिक क्षमताओं का उपयोग करके जटिल कार्यों को पूरा करने के लिए रोबोट को भी नियंत्रित कर सकता है।

शोधकर्ताओं ने कहा कि इन क्षमताओं के पीछे एक प्रमुख कारण दो तकनीकी घटकों-सेट-ऑफ-मार्क और ट्रेस-ऑफ-मार्क के साथ विविध डेटासेट है। पूर्व में छवियों, वीडियो और स्थानिक डेटा में एक्शन ग्राउंडिंग को सक्षम करता है, जिसमें मॉडल को छवि अंतरिक्ष में बटन या रोबोट हथियारों के लिए संख्यात्मक निशान की भविष्यवाणी करते हैं। उत्तरार्द्ध मॉडल टेम्पोरल वीडियो डायनेमिक्स को फीड करता है और कार्रवाई करने से पहले अगले फ्रेम की भविष्यवाणी करता है। यह मॉडल को एक मजबूत स्थानिक समझ विकसित करने की अनुमति देता है।

Microsoft शोधकर्ताओं ने आंतरिक परीक्षण के आधार पर AI मॉडल के बेंचमार्क स्कोर भी साझा किए। इसने Openai, अलीबाबा और Google द्वारा सभी एजेंट मूल्यांकन परीक्षणों, बेहतर प्रदर्शन मॉडल में प्रतिस्पर्धी स्कोर हासिल किया है। कंपनी ने अब तक सार्वजनिक डोमेन में मैग्मा को जारी नहीं किया है।





Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here