Home Technology हगिंग फेस का नया SMOLVLM 256M मॉडल उपभोक्ता लैपटॉप पर चल सकता...

हगिंग फेस का नया SMOLVLM 256M मॉडल उपभोक्ता लैपटॉप पर चल सकता है

3
0
हगिंग फेस का नया SMOLVLM 256M मॉडल उपभोक्ता लैपटॉप पर चल सकता है



गले का चेहरा पिछले सप्ताह अपने Smolvlm विज़न भाषा मॉडल में दो नए वेरिएंट पेश किए। नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल 256 मिलियन और 500 मिलियन पैरामीटर आकारों में उपलब्ध हैं, पूर्व में कंपनी द्वारा दुनिया के सबसे छोटे दृष्टि मॉडल के रूप में दावा किया जा रहा है। नए वेरिएंट आकार को काफी कम करते हुए पुराने दो-बिलियन पैरामीटर मॉडल की दक्षता को बनाए रखने पर ध्यान केंद्रित करते हैं। कंपनी ने इस बात पर प्रकाश डाला कि नए मॉडल को स्थानीय रूप से विवश उपकरणों, उपभोक्ता लैपटॉप, या यहां तक ​​कि संभावित रूप से ब्राउज़र-आधारित निष्कर्ष पर चलाया जा सकता है।

हगिंग चेहरा छोटे smolvlm ai मॉडल का परिचय देता है

में एक ब्लॉग भेजाकंपनी ने मौजूदा 2 बिलियन पैरामीटर मॉडल के अलावा, SMOLVLM-256M और SMOLVLM-500M विज़न लैंग्वेज मॉडल की घोषणा की। रिलीज दो बेस मॉडल और दो निर्देशों को उपरोक्त पैरामीटर आकारों में ठीक-ठीक ट्यून मॉडल लाता है।

हगिंग फेस ने कहा कि इन मॉडलों को सीधे ट्रांसफॉर्मर, मशीन लर्निंग एक्सचेंज (एमएलएक्स), और ओपन न्यूरल नेटवर्क एक्सचेंज (ONNX) प्लेटफार्मों और डेवलपर्स के लिए लोड किया जा सकता है, जो बेस मॉडल के शीर्ष पर निर्माण कर सकते हैं। विशेष रूप से, ये व्यक्तिगत और व्यावसायिक उपयोग दोनों के लिए अपाचे 2.0 लाइसेंस के साथ उपलब्ध ओपन-सोर्स मॉडल हैं।

नए एआई मॉडल के साथ, हगिंग फेस का उद्देश्य पोर्टेबल उपकरणों पर कंप्यूटर विजन पर केंद्रित मल्टीमॉडल मॉडल लाना है। उदाहरण के लिए, 256 मिलियन पैरामीटर मॉडल, GPU मेमोरी के एक GB से कम और 15GB RAM पर 16 छवियों को प्रति सेकंड (64 के बैच आकार के साथ) संसाधित करने के लिए चलाया जा सकता है।

आंद्रेस मारफोटी, हगिंग फेस में एक मशीन लर्निंग रिसर्च इंजीनियर बताया वेंचरबीट, “एक मध्यम आकार की कंपनी के लिए मासिक 1 मिलियन छवियों को संसाधित करने के लिए, यह गणना लागतों में पर्याप्त वार्षिक बचत का अनुवाद करता है।”

एआई मॉडल के आकार को कम करने के लिए, शोधकर्ताओं ने पिछले सिग्लिप 400 मीटर से 93 मी-पैरामीटर सिग्लिप बेस पैच पर विज़न एनकोडर को स्विच किया। इसके अतिरिक्त, टोकन को भी अनुकूलित किया गया था। 2B मॉडल में 1820 पिक्सेल प्रति टोकन की तुलना में नए विज़न मॉडल 4096 पिक्सेल प्रति टोकन की दर से छवियों को एनकोड करते हैं।

विशेष रूप से, प्रदर्शन के मामले में 2 बी मॉडल के पीछे छोटे मॉडल भी मामूली रूप से हैं, लेकिन कंपनी ने कहा कि इस व्यापार-बंद को न्यूनतम रखा गया है। गले लगाने वाले चेहरे के अनुसार, 256 मीटर वेरिएंट का उपयोग छवियों या लघु वीडियो को कैप्शन देने के लिए किया जा सकता है, दस्तावेजों के बारे में सवालों के जवाब, और बुनियादी दृश्य तर्क कार्यों के लिए।

डेवलपर्स ट्रांसफॉर्मर और एमएलएक्स का उपयोग करके एआई मॉडल का उपयोग कर सकते हैं और एआई मॉडल को ठीक कर सकते हैं क्योंकि वे पुराने SMOLVLM कोड आउट-ऑफ-द-बॉक्स के साथ काम करते हैं। ये मॉडल भी हैं सूचीबद्ध गले लगने पर।





Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here