गले का चेहरा पिछले सप्ताह अपने Smolvlm विज़न भाषा मॉडल में दो नए वेरिएंट पेश किए। नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल 256 मिलियन और 500 मिलियन पैरामीटर आकारों में उपलब्ध हैं, पूर्व में कंपनी द्वारा दुनिया के सबसे छोटे दृष्टि मॉडल के रूप में दावा किया जा रहा है। नए वेरिएंट आकार को काफी कम करते हुए पुराने दो-बिलियन पैरामीटर मॉडल की दक्षता को बनाए रखने पर ध्यान केंद्रित करते हैं। कंपनी ने इस बात पर प्रकाश डाला कि नए मॉडल को स्थानीय रूप से विवश उपकरणों, उपभोक्ता लैपटॉप, या यहां तक कि संभावित रूप से ब्राउज़र-आधारित निष्कर्ष पर चलाया जा सकता है।
हगिंग चेहरा छोटे smolvlm ai मॉडल का परिचय देता है
में एक ब्लॉग भेजाकंपनी ने मौजूदा 2 बिलियन पैरामीटर मॉडल के अलावा, SMOLVLM-256M और SMOLVLM-500M विज़न लैंग्वेज मॉडल की घोषणा की। रिलीज दो बेस मॉडल और दो निर्देशों को उपरोक्त पैरामीटर आकारों में ठीक-ठीक ट्यून मॉडल लाता है।
हगिंग फेस ने कहा कि इन मॉडलों को सीधे ट्रांसफॉर्मर, मशीन लर्निंग एक्सचेंज (एमएलएक्स), और ओपन न्यूरल नेटवर्क एक्सचेंज (ONNX) प्लेटफार्मों और डेवलपर्स के लिए लोड किया जा सकता है, जो बेस मॉडल के शीर्ष पर निर्माण कर सकते हैं। विशेष रूप से, ये व्यक्तिगत और व्यावसायिक उपयोग दोनों के लिए अपाचे 2.0 लाइसेंस के साथ उपलब्ध ओपन-सोर्स मॉडल हैं।
नए एआई मॉडल के साथ, हगिंग फेस का उद्देश्य पोर्टेबल उपकरणों पर कंप्यूटर विजन पर केंद्रित मल्टीमॉडल मॉडल लाना है। उदाहरण के लिए, 256 मिलियन पैरामीटर मॉडल, GPU मेमोरी के एक GB से कम और 15GB RAM पर 16 छवियों को प्रति सेकंड (64 के बैच आकार के साथ) संसाधित करने के लिए चलाया जा सकता है।
आंद्रेस मारफोटी, हगिंग फेस में एक मशीन लर्निंग रिसर्च इंजीनियर बताया वेंचरबीट, “एक मध्यम आकार की कंपनी के लिए मासिक 1 मिलियन छवियों को संसाधित करने के लिए, यह गणना लागतों में पर्याप्त वार्षिक बचत का अनुवाद करता है।”
एआई मॉडल के आकार को कम करने के लिए, शोधकर्ताओं ने पिछले सिग्लिप 400 मीटर से 93 मी-पैरामीटर सिग्लिप बेस पैच पर विज़न एनकोडर को स्विच किया। इसके अतिरिक्त, टोकन को भी अनुकूलित किया गया था। 2B मॉडल में 1820 पिक्सेल प्रति टोकन की तुलना में नए विज़न मॉडल 4096 पिक्सेल प्रति टोकन की दर से छवियों को एनकोड करते हैं।
विशेष रूप से, प्रदर्शन के मामले में 2 बी मॉडल के पीछे छोटे मॉडल भी मामूली रूप से हैं, लेकिन कंपनी ने कहा कि इस व्यापार-बंद को न्यूनतम रखा गया है। गले लगाने वाले चेहरे के अनुसार, 256 मीटर वेरिएंट का उपयोग छवियों या लघु वीडियो को कैप्शन देने के लिए किया जा सकता है, दस्तावेजों के बारे में सवालों के जवाब, और बुनियादी दृश्य तर्क कार्यों के लिए।
डेवलपर्स ट्रांसफॉर्मर और एमएलएक्स का उपयोग करके एआई मॉडल का उपयोग कर सकते हैं और एआई मॉडल को ठीक कर सकते हैं क्योंकि वे पुराने SMOLVLM कोड आउट-ऑफ-द-बॉक्स के साथ काम करते हैं। ये मॉडल भी हैं सूचीबद्ध गले लगने पर।