Qwen (@Alibaba_Qwen)

Qwen 3.5 Medium 모델 시리즈의 FP8 가중치가 공개되어 배포 준비 완료되었다는 공지입니다. vLLM과 SGLang에 대한 네이티브 지원이 포함되며 모델 카드에 예제 코드가 제공됩니다. FP8 정밀도로 워크플로 최적화가 가능하며 가중치는 Hugging Face에서 획득할 수 있다고 안내합니다.

https://x.com/Alibaba_Qwen/status/2026682179305275758

#qwen3.5 #fp8 #vllm #huggingface #sglang

Qwen (@Alibaba_Qwen) on X

🔥 Qwen 3.5 Medium Model Series FP8 weights are now open and ready for deployment! Native support for vLLM and SGLang. Check the model card for example code. ⚡️ Optimize your workflow with FP8 precision. 👇 Get the weights: Hugging Face:https://t.co/3MSb7miq68

X (formerly Twitter)

Qwen (@Alibaba_Qwen)

Qwen 3.5 Medium 시리즈의 FP8 가중치가 공개되어 배포 가능하다는 공지입니다. vLLM과 SGLang에 네이티브 지원을 제공하며, 모델 카드에 예제 코드가 포함되어 있습니다. FP8 정밀도로 워크플로우 최적화 가능하며 가중치는 Hugging Face에서 확인·다운로드할 수 있습니다.

https://x.com/Alibaba_Qwen/status/2026682179305275758

#qwen #fp8 #vllm #huggingface #sglang

Qwen (@Alibaba_Qwen) on X

🔥 Qwen 3.5 Medium Model Series FP8 weights are now open and ready for deployment! Native support for vLLM and SGLang. Check the model card for example code. ⚡️ Optimize your workflow with FP8 precision. 👇 Get the weights: Hugging Face:https://t.co/3MSb7miq68

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

사용자가 Windows 대신 리눅스 환경에서 Nvidia GPU와 CUDA를 활용하여 vLLM을 구동하고 Qwen3-0.6B 모델을 테스트하고 있습니다. 개인 GPU(3090) 환경에서 실행 속도 비교와 성능 평가를 시도하며, 로컬 환경에서의 대형 언어 모델 운용 효율성을 탐색 중입니다.

https://x.com/ivanfioravanti/status/2025629762035609793

#nvidia #cuda #vllm #linux #qwen

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Reentering in Nvidia and CUDA world using native Linux instead of (damned Windows + WSL!) vLLM on 3090 here with Qwen3-0.6B, speed is ok, but 24GB vs 512GB of M3 Ultra 😖

X (formerly Twitter)
Complete guide to LLM hosting in 2026. Compare Ollama, vLLM, Docker Model Runner, LocalAI and cloud providers. Learn cost, performance, and infrastructure trade-offs:
https://www.glukhov.org/llm-hosting/
#AI #LLM #hosting #Self-Hosting #SelfHosting #ollama #vllm #infrastructure
LLM Hosting in 2026: Local, Self-Hosted & Cloud Infrastructure Compared

Complete guide to LLM hosting in 2026. Compare Ollama, vLLM, Docker Model Runner, LocalAI and cloud providers. Learn cost, performance, and infrastructure trade-offs.

Rost Glukhov | Personal site and technical blog

Qwen (@Alibaba_Qwen)

Qwen3.5-397B-A17B-FP8 모델 가중치가 공개되었다는 발표입니다. SGLang 지원이 병합되었고 vLLM용 PR이 제출되어(vLLM 리포 연동 예정) 주요 추론 프레임워크에서 곧 사용 가능해진다는 기술·오픈소스 업데이트를 알립니다. 모델 카드와 예제 코드도 제공됩니다.

https://x.com/Alibaba_Qwen/status/2024161147537232110

#qwen3.5 #openweights #vllm #sglang

Qwen (@Alibaba_Qwen) on X

🚀 Qwen3.5-397B-A17B-FP8 weights are now open! It took some time to adapt the inference frameworks, but here we are: ✅ SGLang support is merged 🔄 vLLM PR submitted → https://t.co/rJkuitOBWs Check the model card for example code. vLLM support landing in the next couple of days!

X (formerly Twitter)

Qwen (@Alibaba_Qwen)

Qwen3.5-397B-A17B-FP8 모델의 가중치가 공개되었습니다. 추론 프레임워크 적응이 진행되었고 SGLang 지원이 병합되었으며 vLLM에 대한 PR이 제출되어 곧 vLLM 지원이 도입될 예정입니다. 모델 카드에 예제 코드가 포함되어 있어 개발자들이 곧바로 테스트하고 배포할 수 있습니다.

https://x.com/Alibaba_Qwen/status/2024161147537232110

#qwen3.5 #openweights #vllm #sglang #inference

Qwen (@Alibaba_Qwen) on X

🚀 Qwen3.5-397B-A17B-FP8 weights are now open! It took some time to adapt the inference frameworks, but here we are: ✅ SGLang support is merged 🔄 vLLM PR submitted → https://t.co/rJkuitOBWs Check the model card for example code. vLLM support landing in the next couple of days!

X (formerly Twitter)

Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне

В прошлом году наша команда неожиданно для себя стала призером на хакатоне «Лидеры Цифровой трансформации». В первой части статьи моя коллега рассказала о своих открытиях и эмоциях. В этой части мы расскажем технические детали решения задачи по распознаванию поврежденных и больных деревьев в городской среде.

https://habr.com/ru/companies/ntechlab/articles/1000432/

#хакатон #ЛТЦ2025 #yolo #сегментация #классификация #vllm

Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне

Привет! Меня зовут Елена, я занимаюсь ресерчем и обучением моделей машинного обучения в компании NtechLab. В прошлом году мне захотелось поучаствовать в крупнейшем российском хакатоне “Лидеры Цифровой...

Хабр

merve (@mervenoyann)

Alibaba의 Qwen3.5 출시 발표: 시리즈 중 최대 A17B/397B 모델이며 컨텍스트 윈도우가 262k 토큰으로 매우 큽니다. 네이티브 멀티모달이자 에이전트적(agentic) 동작을 지원하고 검색 및 문서 이해에서 우수하다고 소개됩니다. 상업적 무료 라이선스이며 vLLM/SGLang과 함께 사용 가능하고 transformers 및 TRL로 파인튜닝할 수 있습니다.

https://x.com/mervenoyann/status/2023344527617204298

#qwen3.5 #multimodal #longcontext #vllm #transformers

merve (@mervenoyann) on X

Qwen3.5 @Alibaba_Qwen is out! > largest model (A17B/397B) in series, context window of 262k tokens > natively multimodal + agentic > leading in search and document understanding 🔥 > commercial free license, use with vLLM/SGLang, use and fine-tune with transformers & TRL 🤗

X (formerly Twitter)
The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works

A deep dive into PagedAttention, speculative decoding, FlashAttention, and continuous batching — the clever tricks that make modern LLMs respond in milliseconds instead of minutes.

TechLife

AISatoshi (@AiXsatoshi)

Minimax-m2.5-NVFP4 모델을 vllm에서 CUDA12.8로 구동한 성능 보고: NVFP4에서 84.5 tok/s, AWQ에서 109.6 tok/s를 기록. 작성자는 CUDA13이 FP4 최적화가 더 잘 된 것 같아 업그레이드를 고려 중이라고 언급함 — GPU/CUDA 버전이 양자화 성능에 미치는 영향에 대한 실사용 벤치마크 정보.

https://x.com/AiXsatoshi/status/2023016702318129524

#minimax #vllm #cuda #nvfp4

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

Minimax-m2.5-NVFP4 vllm CUDA12.8 84.5 tok/s@NVFP4、109.6 tok/s@AWQ CUDA13のほうがFP4最適化されてる? アップグレードしてみる

X (formerly Twitter)