fly51fly (@fly51fly)
TiPToP라는 모듈형 오픈-보캐블러리(planning) 시스템이 로봇 조작용 연구로 발표되었습니다. MIT CSAIL 연구진(저자 W Shen, N Kumar, S Chintalapudi, J Wang 등)이 제안한 이 시스템은 오픈 어휘 기반의 계획(planning)을 통해 다양한 조작 과제를 처리하도록 설계되었으며 arXiv에 논문(2603.09971)으로 공개되었습니다.
fly51fly (@fly51fly)
TiPToP라는 모듈형 오픈-보캐블러리(planning) 시스템이 로봇 조작용 연구로 발표되었습니다. MIT CSAIL 연구진(저자 W Shen, N Kumar, S Chintalapudi, J Wang 등)이 제안한 이 시스템은 오픈 어휘 기반의 계획(planning)을 통해 다양한 조작 과제를 처리하도록 설계되었으며 arXiv에 논문(2603.09971)으로 공개되었습니다.
Ultralytics (@ultralytics)
Ultralytics의 YOLOE-26을 이용해 텍스트 또는 시각적 프롬프트로 재학습 없이 동적 객체 분할(promptable segmentation)을 수행할 수 있게 되었습니다. 이는 오픈 보캐뷸러리 비전 작업과 대화형 데이터 라벨링에 적합합니다.
https://x.com/ultralytics/status/2029244274638770277
#ultralytics #yoloe26 #segmentation #computervision #openvocabulary

Run promptable segmentation with Ultralytics YOLOE-26! 🧠 Use text or visual prompts to segment objects dynamically without retraining, ideal for open-vocabulary vision tasks and interactive data annotation. Learn more ➡️ https://t.co/P6QnAQSoIy #Ultralytics #YOLO26 #AI
YOLO-World: Real-Time Open-Vocabulary Object Detection
https://arxiv.org/abs/2401.17270
#HackerNews #YOLO #World #RealTime #ObjectDetection #OpenVocabulary #AIResearch
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.