AA (@measure_plan)
사진 검색·뷰잉 실험: threejs 인터페이스 위에 smolVLM + Roboflow RF-DETR 기반 컴퓨터 비전과 ChromaDB 시맨틱 검색을 결합해, 도시·색상·객체 같은 자연어로 전체 사진 라이브러리를 검색할 수 있게 구성한 사례를 공유함.
AA (@measure_plan)
사진 검색·뷰잉 실험: threejs 인터페이스 위에 smolVLM + Roboflow RF-DETR 기반 컴퓨터 비전과 ChromaDB 시맨틱 검색을 결합해, 도시·색상·객체 같은 자연어로 전체 사진 라이브러리를 검색할 수 있게 구성한 사례를 공유함.
AA (@measure_plan)
로컬의 무료 AI 모델들을 활용해 컴퓨터에 있는 오래된 여행 사진을 자연어로 검색하는 앱을 제작한 사례: smolVLM으로 장면·색상 설명, Roboflow RF-DETR로 객체 검출, ChromaDB에 메타데이터 저장·시맨틱 검색을 수행하고 Python과 Streamlit으로 UI를 구현했습니다.

i built an app to search old travel photos on my computer with natural language queries using free local AI models: - smolVLM to describe the scene and colours - roboflow RF-DETR to detect objects - chromaDB to store metadata labels and run semantic search - python + streamlit
田中義弘 | taziku CEO / AI × Creative (@taziku_co)
MacBook Air M2 로컬 환경에서 실시간 상황 인식 시스템을 구현한 사례. RF-DETR를 이용해 객체를 탐지하고, SmolVLM이 장면을 한 문장으로 설명하며, Vanilla JS로 시각화까지 완전 오프라인에서 수행된다. 개인 PC에서 ‘보고 → 이해하고 → 시각화’ 단계를 모두 처리하는 경량 AI 파이프라인 구현 예시로 주목된다.
AA (@measure_plan)
사용자가 로컬 환경에서 작동하는 실시간 컴퓨터 비전 시스템을 개발했다. 웹캠 피드를 이용해 Roboflow의 RF-DETR 모델로 객체 인식 후, SmolVLM으로 한 문장 설명을 생성하고, 결과를 Vanilla JS로 시각화한다. 모든 처리 과정이 MacBook Air M2에서 WebGPU 없이 로컬로 실행되는 점이 특징이다.

i made a computer vision system to monitor the situation - live webcam feed and roboflow RF-DETR for object detection - inputs are fed into SmolVLM which describes what it sees in one sentence - dataviz with vanilla js all running locally in real-time on my macbook air m2
VLM 실행하기: CPU 최적화부터 클라우드까지
VLM을 실행하는 방법을 완벽 정리했습니다. 다양한 모델 비교부터 Intel CPU 최적화, Ollama Cloud 활용까지 실무에 바로 적용할 수 있는 가이드입니다.हगिंग फेस SMOLVLM विज़न लैंग्वेज मॉडल के कॉम्पैक्ट संस्करणों का परिचय देता है जो उपभोक्ता लैपटॉप पर चल सकता है
हगिंग फेस ने पिछले हफ्ते अपने Smolvlm विज़न लैंग्वेज मॉडल में दो नए वेरिएंट पेश किए। नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल 256 मिलियन और 500 मिलियन पैरामीटर आकारों में उपलब्ध हैं, पूर्व में कंपनी द्वारा दुनिया के सबसे छोटे दृष्टि मॉडल के रूप में दावा किया जा रहा है। नए वेरिएंट आकार को काफी कम करते हुए पुराने दो-बिलियन पैरामीटर मॉडल की दक्षता को बनाए रखने पर ध्यान केंद्रित करते हैं। कंपनी ने इस बात पर प्रकाश डाला कि नए मॉडल को स्थानीय रूप से विवश उपकरणों, उपभोक्ता लैपटॉप, या यहां तक कि संभावित रूप से ब्राउज़र-आधारित निष्कर्ष पर चलाया जा सकता है।
हगिंग चेहरा छोटे smolvlm ai मॉडल का परिचय देता है
में एक ब्लॉग भेजाकंपनी ने मौजूदा 2 बिलियन पैरामीटर मॉडल के अलावा, SMOLVLM-256M और SMOLVLM-500M विजन भाषा मॉडल की घोषणा की। रिलीज दो बेस मॉडल और दो निर्देशों को उपरोक्त पैरामीटर आकार में ठीक-ठीक ट्यून मॉडल लाता है।
हगिंग फेस ने कहा कि इन मॉडलों को सीधे ट्रांसफॉर्मर, मशीन लर्निंग एक्सचेंज (एमएलएक्स), और ओपन न्यूरल नेटवर्क एक्सचेंज (ONNX) प्लेटफार्मों और डेवलपर्स के लिए लोड किया जा सकता है, जो बेस मॉडल के शीर्ष पर निर्माण कर सकते हैं। विशेष रूप से, ये व्यक्तिगत और व्यावसायिक उपयोग दोनों के लिए अपाचे 2.0 लाइसेंस के साथ उपलब्ध ओपन-सोर्स मॉडल हैं।
नए एआई मॉडल के साथ, हगिंग फेस का उद्देश्य पोर्टेबल उपकरणों पर कंप्यूटर विजन पर केंद्रित मल्टीमॉडल मॉडल लाना है। उदाहरण के लिए, 256 मिलियन पैरामीटर मॉडल, GPU मेमोरी के एक GB से कम और 15GB RAM पर 16 छवियों को प्रति सेकंड (64 के बैच आकार के साथ) संसाधित करने के लिए चलाया जा सकता है।
आंद्रेस मारफोटी, हगिंग फेस में एक मशीन लर्निंग रिसर्च इंजीनियर बताया वेंचरबीट, “एक मध्यम आकार की कंपनी के लिए मासिक 1 मिलियन छवियों को संसाधित करने के लिए, यह गणना लागतों में पर्याप्त वार्षिक बचत का अनुवाद करता है।”
एआई मॉडल के आकार को कम करने के लिए, शोधकर्ताओं ने पिछले सिग्लिप 400 मीटर से 93 मी-पैरामीटर सिग्लिप बेस पैच पर विज़न एनकोडर को स्विच किया। इसके अतिरिक्त, टोकन को भी अनुकूलित किया गया था। 2B मॉडल में 1820 पिक्सेल प्रति टोकन की तुलना में नए विज़न मॉडल 4096 पिक्सेल प्रति टोकन की दर से छवियों को एनकोड करते हैं।
विशेष रूप से, प्रदर्शन के मामले में 2 बी मॉडल के पीछे छोटे मॉडल भी मामूली रूप से हैं, लेकिन कंपनी ने कहा कि इस व्यापार-बंद को न्यूनतम रखा गया है। गले लगाने वाले चेहरे के अनुसार, 256 मीटर वेरिएंट का उपयोग छवियों या लघु वीडियो को कैप्शन देने के लिए किया जा सकता है, दस्तावेजों के बारे में सवालों के जवाब, और बुनियादी दृश्य तर्क कार्यों के लिए।
डेवलपर्स ट्रांसफॉर्मर और एमएलएक्स का उपयोग करके एआई मॉडल का उपयोग कर सकते हैं और एआई मॉडल को ठीक कर सकते हैं क्योंकि वे पुराने SMOLVLM कोड आउट-ऑफ-द-बॉक्स के साथ काम करते हैं। ये मॉडल भी हैं सूचीबद्ध गले लगने पर।
Share this:
#smolvlm #एआईमडल #एलएलएम #ऐ #कतरमहशयर_ #खलसतरत #दषटमडल #हगगफसSMOLVLM256M500MवजनलगवजAIमडलओपनसरसरलजहगगफस
Hugging Face Launches Small SmolVLM AI Models for PCs With Less Than 1GB of RAM #AI #HuggingFace #SmolVLM #AIModels #LLM
🤗 Check out HuggingFace's latest vision model👇
SmolVLM: a small Vision Language Model which is fast 🏎️, memory efficient 🧠 & fully open-source🔓!
SmolVLM brings high-performance image & text processing with minimal GPU needs, cutting costs for businesses.