NVIDIA (@nvidia)
NVIDIA GB300 NVL72와 코드사인 소프트웨어 스택(NVIDIA Dynamo 및 TensorRT-LLM)이 NVIDIA Hopper 플랫폼 대비 와트당 성능을 50배 이상 향상시킨다고 발표했습니다. 전력 효율 중심의 대규모 추론 개선을 주장하는 내용입니다.
NVIDIA (@nvidia)
NVIDIA GB300 NVL72와 코드사인 소프트웨어 스택(NVIDIA Dynamo 및 TensorRT-LLM)이 NVIDIA Hopper 플랫폼 대비 와트당 성능을 50배 이상 향상시킨다고 발표했습니다. 전력 효율 중심의 대규모 추론 개선을 주장하는 내용입니다.
NVIDIA (@nvidia)
NVIDIA GB300 NVL72와 코드사인 소프트웨어 스택(발표에서는 NVIDIA Dynamo 및 TensorRT-LLM 명시)이 Hopper 플랫폼 대비 토큰당 비용을 35배 낮춘다고 발표했습니다. 하드웨어와 소프트웨어 최적화의 결합을 강조하는 내용입니다.
Python Trending (@pythontrending)
TensorRT-LLM 관련 안내로, 사용자가 파이썬 API로 대형 언어 모델(LLM)을 정의할 수 있게 하고 NVIDIA 하드웨어에서 효율적인 추론을 위한 최첨단 최적화를 지원한다는 내용의 발표/소개입니다(엔비디아의 TensorRT 생태계 확장 관련 업데이트).
NVIDIA TensorRT-LLM giới thiệu tính năng **AETHER-X** qua PR #10305, đạt **tăng tốc 4.9x trong inference** nhờ Adaptive POVM Kernels! Nhiều người ngạc nhiên vì cải tiến vượt trội thay vì chỉ sửa lỗi nhỏ. #TensorRTLLM #AIDeepLearning #AI #ML #DeepLearning #CôngNghệAI #ViễnTàiAI
https://www.reddit.com/r/LocalLLaMA/comments/1pxqbk4/uh_has_anyone_seen_pr_10305_on_tensorrtllm/
80B 파라미터에서 3B만 사용한다고? 알리바바 Qwen3-Next가 보여주는 AI 효율성의 새로운 패러다임
알리바바의 Qwen3-Next 모델이 80B 파라미터 중 3B만 활성화하면서도 기존 32B 모델을 능가하는 성능을 보여주는 혁신적인 MoE 아키텍처와 실제 배포 방법을 소개합니다.Эффективный инференс множества LoRA адаптеров
LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.
https://habr.com/ru/articles/922290/
#multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora
Apple und NVIDIA bündeln ihre Kräfte, um die Zukunft der KI-Texterstellung zu revolutionieren. Im Zentrum dieser Zusammenarbeit steht ReDrafter, eine von Apple entwickelte Methode zur Optimierung der Texterzeugung durch Large Language Models (LLMs).
Apple, NVIDIA Team Up For Research To Improve LLM Performance #ai #apple #artificalintelligence #artificialintelligence #generativeai #nvidia #recurrentdrafter #redrafter #tensorrtllm
https://www.lowyat.net/2024/339695/apple-nvidia-team-up-to-improve-llm/