Home Technology ऐप्पल 'फेरेट यूआई' एआई मॉडल पर काम कर रहा है जो आईफोन यूआई को समझ सकता है

ऐप्पल 'फेरेट यूआई' एआई मॉडल पर काम कर रहा है जो आईफोन यूआई को समझ सकता है

0
ऐप्पल 'फेरेट यूआई' एआई मॉडल पर काम कर रहा है जो आईफोन यूआई को समझ सकता है


सेब शोधकर्ताओं ने कृत्रिम बुद्धिमत्ता (एआई) मॉडल पर एक और पेपर प्रकाशित किया है, और इस बार फोकस स्मार्टफोन यूजर इंटरफेस (यूआई) के माध्यम से समझने और नेविगेट करने पर है। अभी तक सहकर्मी-समीक्षा किए जाने वाले शोध पत्र में फेरेट यूआई नामक एक बड़े भाषा मॉडल (एलएलएम) पर प्रकाश डाला गया है, जो पारंपरिक कंप्यूटर दृष्टि से परे जा सकता है और जटिल स्मार्टफोन स्क्रीन को समझ सकता है। विशेष रूप से, तकनीकी दिग्गज के अनुसंधान प्रभाग द्वारा प्रकाशित एआई पर यह पहला पेपर नहीं है। यह पहले ही प्रकाशित हो चुका है कागज़ मल्टीमॉडल एलएलएम (एमएलएलएम) पर और एक और ऑन-डिवाइस AI मॉडल पर।

शोध का प्री-प्रिंट संस्करण कागज़ arXiv पर प्रकाशित किया गया है, जो विद्वानों के पत्रों का एक ओपन-एक्सेस ऑनलाइन भंडार है। पेपर का शीर्षक “फेरेट-यूआई: ग्राउंडेड मोबाइल यूआई अंडरस्टैंडिंग विद मल्टीमॉडल एलएलएम” है और यह एमएलएलएम के उपयोग के मामले को बढ़ाने पर केंद्रित है। यह इस बात पर प्रकाश डालता है कि मल्टीमॉडल क्षमताओं वाले अधिकांश भाषा मॉडल प्राकृतिक छवियों से परे नहीं समझ सकते हैं और उनकी कार्यक्षमता “प्रतिबंधित” है। इसमें स्मार्टफोन जैसे जटिल और गतिशील इंटरफेस को समझने के लिए एआई मॉडल की आवश्यकता भी बताई गई है।

पेपर के अनुसार, फेरेट यूआई को “यूआई स्क्रीन के लिए विशिष्ट सटीक रेफरिंग और ग्राउंडिंग कार्यों को निष्पादित करने के लिए डिज़ाइन किया गया है, जबकि ओपन-एंडेड भाषा निर्देशों की कुशलता से व्याख्या और कार्य किया जाता है।” सरल शब्दों में, विज़न लैंग्वेज मॉडल न केवल एक स्मार्टफोन स्क्रीन को विभिन्न सूचनाओं का प्रतिनिधित्व करने वाले कई तत्वों के साथ संसाधित कर सकता है, बल्कि यह उपयोगकर्ता को प्रश्न पूछे जाने पर उनके बारे में भी बता सकता है।

फ़ेर्रेट यूआई स्क्रीन पर जानकारी कैसे संसाधित करता है
फोटो साभार: एप्पल

पेपर में साझा की गई छवि के आधार पर, मॉडल विजेट को समझ और वर्गीकृत कर सकता है और आइकन को पहचान सकता है। यह “लॉन्च आइकन कहां है” और “मैं रिमाइंडर ऐप कैसे खोलूं” जैसे सवालों का जवाब भी दे सकता है। इससे पता चलता है कि एआई न केवल उस स्क्रीन को समझाने में सक्षम है जिसे वह देखता है, बल्कि एक संकेत के आधार पर आईफोन के विभिन्न हिस्सों में भी नेविगेट कर सकता है।

फ़ेर्रेट यूआई को प्रशिक्षित करने के लिए, ऐप्पल शोधकर्ताओं ने स्वयं अलग-अलग जटिलताओं का डेटा बनाया। इससे मॉडल को बुनियादी कार्यों को सीखने और एकल-चरणीय प्रक्रियाओं को समझने में मदद मिली। “उन्नत कार्यों के लिए, हम विस्तृत विवरण, वार्तालाप धारणा, वार्तालाप इंटरैक्शन और फ़ंक्शन अनुमान सहित डेटा उत्पन्न करने के लिए GPT-4 (40) का उपयोग करते हैं। ये उन्नत कार्य दृश्य घटकों के बारे में अधिक सूक्ष्म चर्चाओं में संलग्न होने, विशिष्ट लक्ष्यों को ध्यान में रखते हुए कार्य योजना तैयार करने और स्क्रीन के सामान्य उद्देश्य की व्याख्या करने के लिए मॉडल तैयार करते हैं, ”पेपर ने समझाया।

पेपर आशाजनक है, और यदि यह सहकर्मी-समीक्षा चरण को पार कर जाता है, तो Apple इस क्षमता का उपयोग शक्तिशाली उपकरण जोड़ने में कर सकता है आई – फ़ोन जो सरल पाठ या मौखिक संकेतों के साथ जटिल यूआई नेविगेशन कार्य कर सकता है। यह क्षमता सिरी के लिए आदर्श प्रतीत होती है।


संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – हमारा देखें नैतिक वक्तव्य जानकारी के लिए।

(टैग्सटूट्रांसलेट)एप्पल फेरेट यूआई एआई मॉडल आईफोन यूआई को समझ सकता है ऐप्पल(टी)एप्पल एआई(टी)कृत्रिम बुद्धिमत्ता(टी)जीपीटी



Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here