cedric (@cedric_chee)
Mistral의 새로운 모델 'Mistral Small 4 119B A6B'은 Magistral의 추론 능력, Pixtral의 멀티모달 기능, Devstral의 에이전트형 코딩 성능을 하나로 통합한 다목적 모델로, 추론 강도를 조절할 수 있습니다. FP8 또는 NVFP4 형식의 가중치가 Hugging Face에서 다운로드 가능하다고 안내됩니다.
cedric (@cedric_chee)
Mistral의 새로운 모델 'Mistral Small 4 119B A6B'은 Magistral의 추론 능력, Pixtral의 멀티모달 기능, Devstral의 에이전트형 코딩 성능을 하나로 통합한 다목적 모델로, 추론 강도를 조절할 수 있습니다. FP8 또는 NVFP4 형식의 가중치가 Hugging Face에서 다운로드 가능하다고 안내됩니다.
Andrej Karpathy (@karpathy)
nanochat이 단일 8x H100 노드에서 GPT-2 역량 모델을 약 2시간 만에 학습시켰다고 발표했습니다(한 달 전 약 3시간에서 단축). fp8 지원과 여러 튜닝, 그리고 데이터셋을 FineWeb-edu에서 변경한 것이 주요 개선 포인트로, 실시간 인터랙티브 학습에 한층 근접했다는 기술적 진전입니다.

nanochat now trains GPT-2 capability model in just 2 hours on a single 8XH100 node (down from ~3 hours 1 month ago). Getting a lot closer to ~interactive! A bunch of tuning and features (fp8) went in but the biggest difference was a switch of the dataset from FineWeb-edu to
Qwen (@Alibaba_Qwen)
Qwen 3.5 Medium 모델 시리즈의 FP8 가중치가 공개되어 배포 준비 완료되었다는 공지입니다. vLLM과 SGLang에 대한 네이티브 지원이 포함되며 모델 카드에 예제 코드가 제공됩니다. FP8 정밀도로 워크플로 최적화가 가능하며 가중치는 Hugging Face에서 획득할 수 있다고 안내합니다.

🔥 Qwen 3.5 Medium Model Series FP8 weights are now open and ready for deployment! Native support for vLLM and SGLang. Check the model card for example code. ⚡️ Optimize your workflow with FP8 precision. 👇 Get the weights: Hugging Face:https://t.co/3MSb7miq68
Qwen (@Alibaba_Qwen)
Qwen 3.5 Medium 시리즈의 FP8 가중치가 공개되어 배포 가능하다는 공지입니다. vLLM과 SGLang에 네이티브 지원을 제공하며, 모델 카드에 예제 코드가 포함되어 있습니다. FP8 정밀도로 워크플로우 최적화 가능하며 가중치는 Hugging Face에서 확인·다운로드할 수 있습니다.

🔥 Qwen 3.5 Medium Model Series FP8 weights are now open and ready for deployment! Native support for vLLM and SGLang. Check the model card for example code. ⚡️ Optimize your workflow with FP8 precision. 👇 Get the weights: Hugging Face:https://t.co/3MSb7miq68
Awni Hannun (@awnihannun)
MLXs의 CUDA 백엔드가 개선되어 시작 시간이 빠르고 전반적인 성능도 향상되었습니다. 작성자는 Qwen3 4B를 fp8로 DGX Spark에서 실행해 1만8500토큰을 4초 미만에 처리했으며, 1만8500 컨텍스트에서 초당 32.5토큰 생성 속도를 기록했다고 보고했습니다. 이는 대규모 컨텍스트에서의 실사용 성능 향상 사례입니다.

MLXs CUDA backend is getting better. It's especially nice if you appreciate fast startup times. But it's also quite fast in general. Here's Qwen3 4B in fp8 running on my DGX Spark. - Processed 18.5k tokens in < 4 seconds - Generates at 32.5 tok/sec with 18.5k context
Andrej Karpathy (@karpathy)
FP8 학습을 활성화해 'time to GPT-2'가 4.3% 개선되어 2.91시간으로 단축되었고, 8×H100 스팟 인스턴스 가격을 쓰면 GPT-2 재현 비용이 약 $20 수준이라고 보고. 과거 GPT-2 공개 논란을 언급하며 현재의 경제성과 성능 향상을 강조함.

Enabled fp8 training for +4.3% improvement to "time to GPT-2", down to 2.91 hours now. Also worth noting that if you use 8XH100 spot instance prices, this GPT-2 repro really only costs ~$20. So this is exciting - GPT-2 (7 years ago): too dangerous to release. GPT-2 (today): new
via #Microsoft : Maia 200: The AI accelerator built for inference
https://ift.tt/CjP7Rem
#Maia200 #AIinference #AIAcelerator #MaiaSDK #Azure #Microsoft #Foundry #Copilot #OpenAI #GPT5 #LLM #SyntheticData #ReinforcementLearning #FP8 #FP4 #TSMC3nm #HBM3e #Datacenter #CloudCompu…

Today, we’re proud to introduce Maia 200, a breakthrough inference accelerator engineered to dramatically improve the economics of AI token generation. Maia 200 is an AI inference powerhouse: an accelerator built on TSMC’s 3nm process with native FP8/FP4 tensor cores, a redesigned memory system with 216GB HBM3e at 7 TB/s and 272MB of on-chip SRAM, plus...