NVIDIA (@nvidia)

NVIDIA GB300 NVL72와 코드사인 소프트웨어 스택(NVIDIA Dynamo 및 TensorRT-LLM)이 NVIDIA Hopper 플랫폼 대비 와트당 성능을 50배 이상 향상시킨다고 발표했습니다. 전력 효율 중심의 대규모 추론 개선을 주장하는 내용입니다.

https://x.com/nvidia/status/2023448139190202479

#nvidia #gb300 #powerefficiency #tensorrtllm

NVIDIA (@nvidia) on X

NVIDIA GB300 NVL72 and the codesigned software stack with NVIDIA Dynamo and TensorRT-LLM deliver over 50x performance per watt compared with the NVIDIA Hopper platform.

X (formerly Twitter)

NVIDIA (@nvidia)

NVIDIA GB300 NVL72와 코드사인 소프트웨어 스택(발표에서는 NVIDIA Dynamo 및 TensorRT-LLM 명시)이 Hopper 플랫폼 대비 토큰당 비용을 35배 낮춘다고 발표했습니다. 하드웨어와 소프트웨어 최적화의 결합을 강조하는 내용입니다.

https://x.com/nvidia/status/2023448198153683237

#nvidia #gb300 #tensorrtllm #dynamo

NVIDIA (@nvidia) on X

NVIDIA GB300 NVL72 and the codesigned software stack including NVIDIA Dynamo and TensorRT-LLM deliver 35x lower cost per token compared with NVIDIA Hopper platform.

X (formerly Twitter)

Python Trending (@pythontrending)

TensorRT-LLM 관련 안내로, 사용자가 파이썬 API로 대형 언어 모델(LLM)을 정의할 수 있게 하고 NVIDIA 하드웨어에서 효율적인 추론을 위한 최첨단 최적화를 지원한다는 내용의 발표/소개입니다(엔비디아의 TensorRT 생태계 확장 관련 업데이트).

https://x.com/pythontrending/status/2008137416108913121

#nvidia #tensorrtllm #llm #inference

Python Trending 🇺🇦 (@pythontrending) on X

TensorRT-LLM - TensorRT LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and supports state-of-the-art optimizations to perform inference efficiently on NVIDIA... https://t.co/4xbjFu2KKc

X (formerly Twitter)

NVIDIA TensorRT-LLM giới thiệu tính năng **AETHER-X** qua PR #10305, đạt **tăng tốc 4.9x trong inference** nhờ Adaptive POVM Kernels! Nhiều người ngạc nhiên vì cải tiến vượt trội thay vì chỉ sửa lỗi nhỏ. #TensorRTLLM #AIDeepLearning #AI #ML #DeepLearning #CôngNghệAI #ViễnTàiAI

https://www.reddit.com/r/LocalLLaMA/comments/1pxqbk4/uh_has_anyone_seen_pr_10305_on_tensorrtllm/

80B 파라미터에서 3B만 사용한다고? 알리바바 Qwen3-Next가 보여주는 AI 효율성의 새로운 패러다임

알리바바의 Qwen3-Next 모델이 80B 파라미터 중 3B만 활성화하면서도 기존 32B 모델을 능가하는 성능을 보여주는 혁신적인 MoE 아키텍처와 실제 배포 방법을 소개합니다.

https://aisparkup.com/posts/4969

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

https://habr.com/ru/articles/922290/

#multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной...

Хабр
Apple und NVIDIA: Revolutionäre Partnerschaft für schnellere KI-Texterstellung
Apple und NVIDIA bündeln ihre Kräfte, um die Zukunft der KI-Texterstellung zu revolutionieren. Im Zentrum dieser Zusammenarbeit steht ReDrafter
https://www.apfeltalk.de/magazin/news/apple-und-nvidia-revolutionaere-partnerschaft-fuer-schnellere-ki-texterstellung/
#News #Apple #GPUEffizienz #GreedyDecodierung #KITexterstellung #LargeLanguageModels #MaschinellesLernen #Nvidia #OpenSource #ReDrafter #TensorRTLLM
Apple und NVIDIA: Revolutionäre Partnerschaft für schnellere KI-Texterstellung

Apple und NVIDIA bündeln ihre Kräfte, um die Zukunft der KI-Texterstellung zu revolutionieren. Im Zentrum dieser Zusammenarbeit steht ReDrafter, eine von Apple entwickelte Methode zur Optimierung der Texterzeugung durch Large Language Models (LLMs).

Apfeltalk Magazin