Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B

TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.

https://habr.com/ru/articles/1018682/

#Gemma_4 #LLM #MLOps #Kaggle #Hugging_Face #bitsandbytes #Квантование #NF4 #Transformers #Python

Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B

TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять...

Хабр

zast (@zast57)

NF4(Normal Float 4-bit) 모델을 사용하고 있다는 짧은 기술 언급으로, 4비트 정밀도(양자화) 형식을 사용해 모델을 구동하고 있음을 밝힘. 경량화/저비용 추론 관련 기술 사용 신호.

https://x.com/zast57/status/2018782216722227619

#nf4 #quantization #model #normalfloat

zast (@zast57) on X

@cocktailpeanut I use NF4 (Normal Float 4-bit) model.

X (formerly Twitter)

金のニワトリ (@gosrum)

GLM-Image가 4비트(4bit) 양자화 시 느려지는 문제가 있었음. 원인은 INT4로 양자화되어 있었기 때문이며, nf4로 변경하자 처리 속도가 3배 이상 빨라졌다는 실사용 성능 개선 보고.

https://x.com/gosrum/status/2011574959890710823

#glmimage #quantization #nf4 #int4 #performance

金のニワトリ (@gosrum) on X

GLM-Imageが4bit量子化時に遅い問題、INT4で量子化していたらしく、nf4にしたら3倍以上速くなった

X (formerly Twitter)
Zwei Straßenbahnen der Ruhrbahn getauft

In Essen sind zwei Straßenbahnen getauft worden. Die beiden Fahrzeuge sind für das Verkehrsunternehmen Ruhrbahn im Einsatz. Mitte November sind in Esse