Ultralytics (@ultralytics)
Ultralytics v8.4.22가 출시되었습니다. 이번 릴리스는 Huawei Ascend NPU 지원 추가, ONNX 및 TensorRT 내보내기 보안성 향상, 다중 GPU DDP 분산 학습의 신뢰성 개선 등을 포함합니다. YOLO 관련 워크플로우에서 NPU 가속 및 모델 변환/배포 안정성이 향상되어 연구·개발과 실운영 환경에서 활용도가 높아집니다.
Ultralytics (@ultralytics)
Ultralytics v8.4.22가 출시되었습니다. 이번 릴리스는 Huawei Ascend NPU 지원 추가, ONNX 및 TensorRT 내보내기 보안성 향상, 다중 GPU DDP 분산 학습의 신뢰성 개선 등을 포함합니다. YOLO 관련 워크플로우에서 NPU 가속 및 모델 변환/배포 안정성이 향상되어 연구·개발과 실운영 환경에서 활용도가 높아집니다.
New research shows TensorRT Edge‑LLM can run chain‑of‑thought reasoning directly on devices, boosting physical AI tasks like autonomous‑vehicle perception and MATH500 benchmarks. Efficient, on‑device inference means smarter, safer robots without cloud latency. Dive into the details of this breakthrough for on‑device language models. #TensorRT #EdgeLLM #ChainOfThought #PhysicalAI
🔗 https://aidailypost.com/news/tensorrt-edgellm-enables-efficient-chainofthought-processing-physical
Abhishek Yadav (@abhishek__AI)
PersonaLive는 단일 이미지를 실시간으로 무한 길이의 표현력 있는 애니메이션 토킹헤드 비디오로 변환하는 오픈 소스 프로젝트입니다. ComfyUI 지원, 실시간 디퓨전 프레임워크, 12GB VRAM 스트리밍 지원, WebUI 제공 및 TensorRT를 활용해 약 2배 빠른 성능을 목표로 합니다. 라이브 스트리밍용 실시간 애니메이션/아바타 제작에 유용한 개발 도구입니다.

Live portrait anime just went real time 🤯 PersonaLive turns a single image into infinite length, expressive talking head video for live streaming. → ComfyUI support → Real time diffusion framework → 12GB VRAM streaming support → WebUI and TensorRT (~2x faster) 100% Open
Edje Electronics (@EdjeElectronics)
@ultralytics가 YOLO26을 발표했습니다. YOLO11보다 빠르고 정확하다고 소개하며 NVIDIA Jetson Orin Nano에서 실행하는 방법을 안내합니다: Orin Nano에 Ultralytics 설치, YOLO26을 TensorRT 형식으로 변환, 라이브 USB 카메라로 실행하는 절차와 관련 문서 링크를 포함합니다.

(1/2) 🔥🔥 @ultralytics just released YOLO26! It's faster and more accurate than YOLO11. See how to run YOLO26 on the @NVIDIA Jetson Orin Nano: 🖥️Install Ultralytics on Orin Nano 🧠Convert YOLO26 to TensorRT format 📸Run on live USB camera Learn more: https://t.co/t61eBpe01g
Под капотом современных AI-систем: разбираем железо
Как объединить по сети вычислители? Что происходит при компиляции кода для железа под капотом и какие есть нюансы при работе с AI в пространстве ядра? ИИ с ноги ворвался во все сферы разработки, работы — вагон и маленькая тележка. Но на чём и как она должна ехать? У каждой программы есть свои требования, универсальных советов нет. О новых решениях можно будет узнать на конференции
https://habr.com/ru/companies/oleg-bunin/articles/968426/
#разработка #конференция #ии #ai #компиляторы #rust #tensorrt #нейросети #архитектура #архитектура_приложений
Lời khuyên về card đồ họa 5070 ti và 5060 ti 16 GB cho TensorRT/VLLM. Có thể thêm 5060 ti để tăng VRAM cho mô hình safetensor? #TensorRT #VLLM #CardĐồHọa #AI #MachineLearning #TríTuệNhânTạo #LờiKhuyên #CôngNghệ
RTX 5090 + FP4 + Open WebUI AndersenřTensorRT-LLM: Giải pháp cho those who cried với VLLM. Ưu điểm: совместимость Blackwell/5090, FP4 ổn định, giao diện OpenAI tương thích. Mô hình Qwen3-30B-A3B-FP4 hoạt động nhanh. Root repo: https://github.com/rdumasia303/tensorrt-llm_with_open-webui (với 1 file compose đơn giản). #TensorRT-LLM #FP4 #RTX5090 #OpenWebUI #NVIDIA #GPT5 #AI #LocalLLaMA
Эффективный инференс множества LoRA адаптеров
LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.
https://habr.com/ru/articles/922290/
#multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora
Auf der Computex 2025 in Taipei und im Rahmen der Microsoft Build 2025 haben NVIDIA und Microsoft eine Reihe technischer Neuerungen vorgestellt, die den Ablauf von KI-Entwicklung und -Bereitstellung sowohl auf lokalen Windows RTX AI PCs als auch in der Azure-Cloud optimieren.