bfloat16

bfloat16은 구글 브레인에서 개발한 16비트 부동소수점 형식으로, 32비트 IEEE 754 단정도 부동소수점의 지수부(8비트)를 유지하면서 가수부를 8비트로 줄여 머신러닝 연산의 속도와 저장 효율을 높인다. 인텔, AMD, NVIDIA, 구글 TPU, AWS Inferentia 등 다양한 CPU, GPU, AI 가속기에서 지원하며, PyTorch, TensorFlow, CUDA 등 주요 라이브러리에서도 활용된다. bfloat16은 넓은 수치 범위를 유지하면서도 낮은 정밀도로 빠른 혼합 정밀도 연산에 적합해 AI 모델 학습과 추론에 널리 쓰인다.

https://en.wikipedia.org/wiki/Bfloat16_floating-point_format

#bfloat16 #floatingpoint #machinelearning #hardware #tensorflow

bfloat16 floating-point format - Wikipedia

Let’s explore bfloat16 in PyTorch for huge AI models.

#pytorch #ai #bfloat16

[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации

https://habr.com/ru/articles/1015510/

#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей

Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Qwen-3-Coder-Next  — модель с 80 миллиардами параметров и весом  159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна.  И эта...

Хабр

fly51fly (@fly51fly)

Google 연구팀이 새로운 논문 'Dual Length Codes for Lossless Compression of BFloat16'을 공개했습니다. 해당 연구는 BFloat16 데이터 형식을 무손실로 압축하기 위한 새로운 알고리즘을 제안하며, 대규모 AI 모델 훈련 및 인퍼런스 시 메모리 효율을 획기적으로 높일 수 있는 기술로 평가됩니다. 향후 TPU 및 GPU 기반 AI 시스템의 성능 개선에 영향을 줄 가능성이 있습니다.

https://x.com/fly51fly/status/2026057407340884270

#google #research #compression #bfloat16 #ai

fly51fly (@fly51fly) on X

[LG] Dual Length Codes for Lossless Compression of BFloat16 A Agrawal, A Magyar, H Eswaraiah, P Sheridan... [Google] (2026) https://t.co/puz68kYv7c

X (formerly Twitter)

#CôngNghệ #AI #Debugging Bộ công cụ chẩn đoán mới cho ComfyUI giúp xác định lỗi độ chính xác bf16 trên hệ thống bộ nhớ thống nhất (128GB Strix Halo). Vấn đề bfloat16 khiến hình ảnh đen do numpy không tương thích. Công cụ hữu ích cho AMD APUs, Apple Silicon hoặc GPU cũ. #HỗTrợAI #PhátTriểnML #Bfloat16 #ComfyUI #SửaLỗiAI

https://www.reddit.com/r/LocalLLaMA/comments/1qrb7xu/strix_halo_comfyui_debugging_tools_bf16_precision/

OK, a few weeks ago ROOL announced (and I read) that they updated the RISC OS assembler to support the new 16 bit floats in new ARM chips.

I've been thinking about this ever since, and it still doesn't make sense to me.

16 bit floats? in 2021? Really? Why?

And I'm not being sarcastic here, I really don't understand. What is the use case?

#riscos #arm #float16 #bfloat16