
सेब शोधकर्ताओं ने कृत्रिम बुद्धिमत्ता (एआई) मॉडल पर एक और पेपर प्रकाशित किया है, और इस बार फोकस स्मार्टफोन यूजर इंटरफेस (यूआई) के माध्यम से समझने और नेविगेट करने पर है। अभी तक सहकर्मी-समीक्षा किए जाने वाले शोध पत्र में फेरेट यूआई नामक एक बड़े भाषा मॉडल (एलएलएम) पर प्रकाश डाला गया है, जो पारंपरिक कंप्यूटर दृष्टि से परे जा सकता है और जटिल स्मार्टफोन स्क्रीन को समझ सकता है। विशेष रूप से, तकनीकी दिग्गज के अनुसंधान प्रभाग द्वारा प्रकाशित एआई पर यह पहला पेपर नहीं है। यह पहले ही प्रकाशित हो चुका है कागज़ मल्टीमॉडल एलएलएम (एमएलएलएम) पर और एक और ऑन-डिवाइस AI मॉडल पर।
शोध का प्री-प्रिंट संस्करण कागज़ arXiv पर प्रकाशित किया गया है, जो विद्वानों के पत्रों का एक ओपन-एक्सेस ऑनलाइन भंडार है। पेपर का शीर्षक “फेरेट-यूआई: ग्राउंडेड मोबाइल यूआई अंडरस्टैंडिंग विद मल्टीमॉडल एलएलएम” है और यह एमएलएलएम के उपयोग के मामले को बढ़ाने पर केंद्रित है। यह इस बात पर प्रकाश डालता है कि मल्टीमॉडल क्षमताओं वाले अधिकांश भाषा मॉडल प्राकृतिक छवियों से परे नहीं समझ सकते हैं और उनकी कार्यक्षमता “प्रतिबंधित” है। इसमें स्मार्टफोन जैसे जटिल और गतिशील इंटरफेस को समझने के लिए एआई मॉडल की आवश्यकता भी बताई गई है।
पेपर के अनुसार, फेरेट यूआई को “यूआई स्क्रीन के लिए विशिष्ट सटीक रेफरिंग और ग्राउंडिंग कार्यों को निष्पादित करने के लिए डिज़ाइन किया गया है, जबकि ओपन-एंडेड भाषा निर्देशों की कुशलता से व्याख्या और कार्य किया जाता है।” सरल शब्दों में, विज़न लैंग्वेज मॉडल न केवल एक स्मार्टफोन स्क्रीन को विभिन्न सूचनाओं का प्रतिनिधित्व करने वाले कई तत्वों के साथ संसाधित कर सकता है, बल्कि यह उपयोगकर्ता को प्रश्न पूछे जाने पर उनके बारे में भी बता सकता है।
फ़ेर्रेट यूआई स्क्रीन पर जानकारी कैसे संसाधित करता है
फोटो साभार: एप्पल
पेपर में साझा की गई छवि के आधार पर, मॉडल विजेट को समझ और वर्गीकृत कर सकता है और आइकन को पहचान सकता है। यह “लॉन्च आइकन कहां है” और “मैं रिमाइंडर ऐप कैसे खोलूं” जैसे सवालों का जवाब भी दे सकता है। इससे पता चलता है कि एआई न केवल उस स्क्रीन को समझाने में सक्षम है जिसे वह देखता है, बल्कि एक संकेत के आधार पर आईफोन के विभिन्न हिस्सों में भी नेविगेट कर सकता है।
फ़ेर्रेट यूआई को प्रशिक्षित करने के लिए, ऐप्पल शोधकर्ताओं ने स्वयं अलग-अलग जटिलताओं का डेटा बनाया। इससे मॉडल को बुनियादी कार्यों को सीखने और एकल-चरणीय प्रक्रियाओं को समझने में मदद मिली। “उन्नत कार्यों के लिए, हम विस्तृत विवरण, वार्तालाप धारणा, वार्तालाप इंटरैक्शन और फ़ंक्शन अनुमान सहित डेटा उत्पन्न करने के लिए GPT-4 (40) का उपयोग करते हैं। ये उन्नत कार्य दृश्य घटकों के बारे में अधिक सूक्ष्म चर्चाओं में संलग्न होने, विशिष्ट लक्ष्यों को ध्यान में रखते हुए कार्य योजना तैयार करने और स्क्रीन के सामान्य उद्देश्य की व्याख्या करने के लिए मॉडल तैयार करते हैं, ”पेपर ने समझाया।
पेपर आशाजनक है, और यदि यह सहकर्मी-समीक्षा चरण को पार कर जाता है, तो Apple इस क्षमता का उपयोग शक्तिशाली उपकरण जोड़ने में कर सकता है आई – फ़ोन जो सरल पाठ या मौखिक संकेतों के साथ जटिल यूआई नेविगेशन कार्य कर सकता है। यह क्षमता सिरी के लिए आदर्श प्रतीत होती है।
(टैग्सटूट्रांसलेट)एप्पल फेरेट यूआई एआई मॉडल आईफोन यूआई को समझ सकता है ऐप्पल(टी)एप्पल एआई(टी)कृत्रिम बुद्धिमत्ता(टी)जीपीटी
Source link