Mastodawn

Clément Pillette (@ClementPillette)

kim-dev 72B를 BF16으로 2 GPU 병렬화하는 시도는 다소 무리였고, 대신 AWQ 4-bit 양자화를 시도한다고 보고합니다. MLX 팀(특히 @ivanfioravanti) 덕분에 Mac Studio에서 모델 구동이 훨씬 수월해졌고, Minimax 2.5는 8비트에서 초당 30tps로 잘 동작하고 있다는 실무적 성과를 공유한 트윗입니다.

https://x.com/ClementPillette/status/2024153241387196892

#quantization #awq #llm #modeloptimization #bf16

Clément Pillette (@ClementPillette) on X

Pushing the limits, kim-dev 72B in BF16 parallelized on 2 GPU was a bit too ambitious. Let's try AWQ 4-bit. So far, it's much less challenging to have a models running on the Mac Studio, thanks to the MLX team ( @ivanfioravanti ). Minimax 2.5 is running well at 30tps in 8 bit

X (formerly Twitter)

Reddit Tech VN Bot Jan 30

Có công cụ chẩn đoán mới cho Strix Halo ComfyUI giúp xác định vấn đề chính xác về độ chính xác bf16 trong hệ thống bộ nhớ thống nhất. Công cụ này hữu ích cho người dùng trên bộ nhớ thống nhất hoặc card đồ họa cũ gặp vấn đề về độ chính xác. #ComfyUI #StrixHalo #bf16 #DebuggingTools #HệThốngBộNhớThốngNhất #CôngCụChẩnDoán #MachineLearning #AI #TríTuệNhânTạo

https://www.reddit.com/r/LocalLLaMA/comments/1qrb7xu/strix_halo_comfyui_debugging_tools_bf16_precision/

sayzard Jan 20

Brie Wensleydale (@SlipperyGem)

Qwen Image 2512(BF16, GGUF 포맷)와 Flux Klein 9B(FP8)를 비교한 의견. 작성자는 Qwen 쪽의 표현과 정확도를 더 선호하며 Flux Klein 쪽에서 여러 문제가 보인다고 평가하고 있음. 두 모델/포맷 간 품질과 안정성 차이를 묻는 내용.

https://x.com/SlipperyGem/status/2013621827369869503

#qwen #flux #gguf #bf16 #fp8

Brie Wensleydale🧀🐭 (@SlipperyGem) on X

Prompt Qwen Image 2512 BF16 GGUF Flux Klein 9B FP8 Man, I just dig Qwen's vibes and accuracy so much more than I do the Flux one. Also, the more you look at the Flux one, the more problems it has. What do you think?

X (formerly Twitter)

sayzard Jan 20

Daniel Han (@danielhanchen)

llama.cpp 기반 사용 관련 실험 및 문제 보고: LM Studio 사용 시 repeat-penalty 비활성화 권장, vLLM은 dry-multiplier가 없어 BF16 모드에서 반복 토큰이 발생하는 문제 관찰 중이며 개선 방안을 모색 중이라는 개발자·운영 이슈 공유.

https://x.com/danielhanchen/status/2013525497112924446

#llama.cpp #vllm #lmstudio #bf16

Daniel Han (@danielhanchen) on X

@gosrum Sorry is this via llama.cpp directly? We're still experimenting on our side. If using LM Studio, disable repeat-penalty. vLLM I think also doesn't have dry-multiplier sadly, and we see some repetitions on BF16 vLLM We're still trying to see how we can reduce issues

X (formerly Twitter)

Winbuzzer Apr 27, 2025

New DFloat11 Technique Offers 30% Lossless Compression for LLMs, Easing Hardware Demands

#AI #AIResearch #DFloat11 #LLMs #LLMcompression #MachineLearning #DeepLearning #BF16 #Inference #RiceUniversity #xMADai

https://winbuzzer.com/2025/04/27/new-dfloat11-technique-offers-30-lossless-compression-for-llms-easing-hardware-demands-xcxwbn/

Habr Sep 30, 2024

FP32, FP16, BF16 и FP8 — разбираемся в основных типах чисел с плавающей запятой

Привет, Хабр! Сегодня давайте поговорим о том, как современные вычисления на GPU стали более гибкими и эффективными благодаря различным форматам чисел с плавающей запятой ( FP64 , FP32 , FP16 , BFLOAT16 и FP8 ). Эти форматы не просто числа — за каждым из них стоит конкретная область применения. В разных ситуациях мы сталкиваемся с задачами, где важны либо скорость, либо точность, и правильно выбранный тип floating point помогает оптимизировать ресурсы. Давайте разберём всё это на примерах и поймём, в каких задачах каждый из этих форматов будет наиболее полезен.

https://habr.com/ru/companies/serverflow/articles/847068/

#FP16 #fp32 #FP64 #BF16 #floating_point #плавающая_запятая #fp8 #числа_с_плавающей_запятой #формат_с_плавающей_запятой

FP32, FP16, BF16 и FP8 — разбираемся в основных типах чисел с плавающей запятой

Хабр