हगिंग फेस SMOLVLM विज़न लैंग्वेज मॉडल के कॉम्पैक्ट संस्करणों का परिचय देता है जो उपभोक्ता लैपटॉप पर चल सकता है

हगिंग फेस ने पिछले हफ्ते अपने Smolvlm विज़न लैंग्वेज मॉडल में दो नए वेरिएंट पेश किए। नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल 256 मिलियन और 500 मिलियन पैरामीटर आकारों में उपलब्ध हैं, पूर्व में कंपनी द्वारा दुनिया के सबसे छोटे दृष्टि मॉडल के रूप में दावा किया जा रहा है। नए वेरिएंट आकार को काफी कम करते हुए पुराने दो-बिलियन पैरामीटर मॉडल की दक्षता को बनाए रखने पर ध्यान केंद्रित करते हैं। कंपनी ने इस बात पर प्रकाश डाला कि नए मॉडल को स्थानीय रूप से विवश उपकरणों, उपभोक्ता लैपटॉप, या यहां तक ​​कि संभावित रूप से ब्राउज़र-आधारित निष्कर्ष पर चलाया जा सकता है।

हगिंग चेहरा छोटे smolvlm ai मॉडल का परिचय देता है

में एक ब्लॉग भेजाकंपनी ने मौजूदा 2 बिलियन पैरामीटर मॉडल के अलावा, SMOLVLM-256M और SMOLVLM-500M विजन भाषा मॉडल की घोषणा की। रिलीज दो बेस मॉडल और दो निर्देशों को उपरोक्त पैरामीटर आकार में ठीक-ठीक ट्यून मॉडल लाता है।

हगिंग फेस ने कहा कि इन मॉडलों को सीधे ट्रांसफॉर्मर, मशीन लर्निंग एक्सचेंज (एमएलएक्स), और ओपन न्यूरल नेटवर्क एक्सचेंज (ONNX) प्लेटफार्मों और डेवलपर्स के लिए लोड किया जा सकता है, जो बेस मॉडल के शीर्ष पर निर्माण कर सकते हैं। विशेष रूप से, ये व्यक्तिगत और व्यावसायिक उपयोग दोनों के लिए अपाचे 2.0 लाइसेंस के साथ उपलब्ध ओपन-सोर्स मॉडल हैं।

नए एआई मॉडल के साथ, हगिंग फेस का उद्देश्य पोर्टेबल उपकरणों पर कंप्यूटर विजन पर केंद्रित मल्टीमॉडल मॉडल लाना है। उदाहरण के लिए, 256 मिलियन पैरामीटर मॉडल, GPU मेमोरी के एक GB से कम और 15GB RAM पर 16 छवियों को प्रति सेकंड (64 के बैच आकार के साथ) संसाधित करने के लिए चलाया जा सकता है।

आंद्रेस मारफोटी, हगिंग फेस में एक मशीन लर्निंग रिसर्च इंजीनियर बताया वेंचरबीट, “एक मध्यम आकार की कंपनी के लिए मासिक 1 मिलियन छवियों को संसाधित करने के लिए, यह गणना लागतों में पर्याप्त वार्षिक बचत का अनुवाद करता है।”

एआई मॉडल के आकार को कम करने के लिए, शोधकर्ताओं ने पिछले सिग्लिप 400 मीटर से 93 मी-पैरामीटर सिग्लिप बेस पैच पर विज़न एनकोडर को स्विच किया। इसके अतिरिक्त, टोकन को भी अनुकूलित किया गया था। 2B मॉडल में 1820 पिक्सेल प्रति टोकन की तुलना में नए विज़न मॉडल 4096 पिक्सेल प्रति टोकन की दर से छवियों को एनकोड करते हैं।

विशेष रूप से, प्रदर्शन के मामले में 2 बी मॉडल के पीछे छोटे मॉडल भी मामूली रूप से हैं, लेकिन कंपनी ने कहा कि इस व्यापार-बंद को न्यूनतम रखा गया है। गले लगाने वाले चेहरे के अनुसार, 256 मीटर वेरिएंट का उपयोग छवियों या लघु वीडियो को कैप्शन देने के लिए किया जा सकता है, दस्तावेजों के बारे में सवालों के जवाब, और बुनियादी दृश्य तर्क कार्यों के लिए।

डेवलपर्स ट्रांसफॉर्मर और एमएलएक्स का उपयोग करके एआई मॉडल का उपयोग कर सकते हैं और एआई मॉडल को ठीक कर सकते हैं क्योंकि वे पुराने SMOLVLM कोड आउट-ऑफ-द-बॉक्स के साथ काम करते हैं। ये मॉडल भी हैं सूचीबद्ध गले लगने पर।

Source link

Share this:

#smolvlm #एआईमडल #एलएलएम #ऐ #कतरमहशयर_ #खलसतरत #दषटमडल #हगगफसSMOLVLM256M500MवजनलगवजAIमडलओपनसरसरलजहगगफस

SmolVLM Grows Smaller – Introducing the 256M & 500M Models!

We’re on a journey to advance and democratize artificial intelligence through open source and open science.