हगिंग फेस का नया SMOLVLM 256M मॉडल उपभोक्ता लैपटॉप पर चल सकता है

hindinewsgallery@gmail.com

27 January 2025

हगिंग फेस का नया SMOLVLM 256M मॉडल उपभोक्ता लैपटॉप पर चल सकता है

गले का चेहरा पिछले सप्ताह अपने Smolvlm विज़न भाषा मॉडल में दो नए वेरिएंट पेश किए। नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल 256 मिलियन और 500 मिलियन पैरामीटर आकारों में उपलब्ध हैं, पूर्व में कंपनी द्वारा दुनिया के सबसे छोटे दृष्टि मॉडल के रूप में दावा किया जा रहा है। नए वेरिएंट आकार को काफी कम करते हुए पुराने दो-बिलियन पैरामीटर मॉडल की दक्षता को बनाए रखने पर ध्यान केंद्रित करते हैं। कंपनी ने इस बात पर प्रकाश डाला कि नए मॉडल को स्थानीय रूप से विवश उपकरणों, उपभोक्ता लैपटॉप, या यहां तक कि संभावित रूप से ब्राउज़र-आधारित निष्कर्ष पर चलाया जा सकता है।

हगिंग चेहरा छोटे smolvlm ai मॉडल का परिचय देता है

में एक ब्लॉग भेजाकंपनी ने मौजूदा 2 बिलियन पैरामीटर मॉडल के अलावा, SMOLVLM-256M और SMOLVLM-500M विज़न लैंग्वेज मॉडल की घोषणा की। रिलीज दो बेस मॉडल और दो निर्देशों को उपरोक्त पैरामीटर आकारों में ठीक-ठीक ट्यून मॉडल लाता है।

हगिंग फेस ने कहा कि इन मॉडलों को सीधे ट्रांसफॉर्मर, मशीन लर्निंग एक्सचेंज (एमएलएक्स), और ओपन न्यूरल नेटवर्क एक्सचेंज (ONNX) प्लेटफार्मों और डेवलपर्स के लिए लोड किया जा सकता है, जो बेस मॉडल के शीर्ष पर निर्माण कर सकते हैं। विशेष रूप से, ये व्यक्तिगत और व्यावसायिक उपयोग दोनों के लिए अपाचे 2.0 लाइसेंस के साथ उपलब्ध ओपन-सोर्स मॉडल हैं।

नए एआई मॉडल के साथ, हगिंग फेस का उद्देश्य पोर्टेबल उपकरणों पर कंप्यूटर विजन पर केंद्रित मल्टीमॉडल मॉडल लाना है। उदाहरण के लिए, 256 मिलियन पैरामीटर मॉडल, GPU मेमोरी के एक GB से कम और 15GB RAM पर 16 छवियों को प्रति सेकंड (64 के बैच आकार के साथ) संसाधित करने के लिए चलाया जा सकता है।

आंद्रेस मारफोटी, हगिंग फेस में एक मशीन लर्निंग रिसर्च इंजीनियर बताया वेंचरबीट, “एक मध्यम आकार की कंपनी के लिए मासिक 1 मिलियन छवियों को संसाधित करने के लिए, यह गणना लागतों में पर्याप्त वार्षिक बचत का अनुवाद करता है।”

एआई मॉडल के आकार को कम करने के लिए, शोधकर्ताओं ने पिछले सिग्लिप 400 मीटर से 93 मी-पैरामीटर सिग्लिप बेस पैच पर विज़न एनकोडर को स्विच किया। इसके अतिरिक्त, टोकन को भी अनुकूलित किया गया था। 2B मॉडल में 1820 पिक्सेल प्रति टोकन की तुलना में नए विज़न मॉडल 4096 पिक्सेल प्रति टोकन की दर से छवियों को एनकोड करते हैं।

विशेष रूप से, प्रदर्शन के मामले में 2 बी मॉडल के पीछे छोटे मॉडल भी मामूली रूप से हैं, लेकिन कंपनी ने कहा कि इस व्यापार-बंद को न्यूनतम रखा गया है। गले लगाने वाले चेहरे के अनुसार, 256 मीटर वेरिएंट का उपयोग छवियों या लघु वीडियो को कैप्शन देने के लिए किया जा सकता है, दस्तावेजों के बारे में सवालों के जवाब, और बुनियादी दृश्य तर्क कार्यों के लिए।

डेवलपर्स ट्रांसफॉर्मर और एमएलएक्स का उपयोग करके एआई मॉडल का उपयोग कर सकते हैं और एआई मॉडल को ठीक कर सकते हैं क्योंकि वे पुराने SMOLVLM कोड आउट-ऑफ-द-बॉक्स के साथ काम करते हैं। ये मॉडल भी हैं सूचीबद्ध गले लगने पर।

।

Source link

हगिंग चेहरा छोटे smolvlm ai मॉडल का परिचय देता है

LEAVE A REPLY Cancel reply