Sudo su (@sudoingX)

단일 24GB GPU 환경에서는 Qwen 3.6 27B dense를 Q4로 올리는 것이 사실상 최선의 선택이라는 경험담입니다. 3090/4090/7900 XTX 급 GPU에서 충분한 컨텍스트 여유를 확보하면서도, 작은 모델들이 잃기 쉬운 추론력을 더 잘 유지한다고 평가합니다.

https://x.com/sudoingX/status/2055679136501501978

#qwen #llm #gpu #quantization

Sudo su (@sudoingX) on X

if you run a single 24gb gpu, a 3090, a 4090, a 7900 xtx, whatever gets you the 24 gigs, the no brainer pick is qwen 3.6 27b dense at q4. not close. i have run the tier. it fits in 24gb with real context room to spare, it keeps the reasoning smaller models lose, it pushes around

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

DFlash-MLX로는 결과가 약간 낮게 나왔지만 MTPLX 평가에서는 더 좋았고, ds4 flash 4bit에서는 96.7% 성능을 기록했다고 공유했다. MLX/4bit 추론 최적화나 모델별 벤치마크 비교 관점에서 참고할 만한 수치다.

https://x.com/ivanfioravanti/status/2055509949619278114

#mlx #benchmark #quantization #inference #llm

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

@liuliu @UnslothAI With DFlash-MLX I'm getting slightly lower results, on MTPLX evals are better. On the other side, ds4 flash 4bit I've got 96.7%! 🔥

X (formerly Twitter)

Unsloth: The Art of the Sloth

Unsloth는 대형 언어 모델(LLM) 학습을 30배 빠르게 하고 메모리를 90% 절감한다고 주장하지만, 독립 감사 결과 실제 학습이 아닌 추론만 수행해 성능을 과장한 것으로 드러났다. 또한, 경쟁사 대비 최적화된 기준과 비교하면 성능 향상은 미미하며, 양자화 과정에서도 여러 버그와 오류가 발견되어 사용자들이 다수의 디버깅을 겪고 있다. 회사는 커뮤니티 기여를 무료 노동력으로 활용하며, VC 자금에 힘입어 최적화 기능을 유료 구독으로 잠그는 등 플랫폼 독점화를 추진하고 있다. 이는 오픈소스 생태계의 집단적 노력을 은폐하고 중앙집중적 사업 모델을 강화하는 사례로 평가된다.

https://fizz.prose.sh/unsloth

#llm #trainingoptimization #quantization #opensource #aistartup

Unsloth: The Art of the Sloth

A critique of Unsloth.

prose.sh

Lewis Tunstall (@_lewtun)

llama.cpp와 Unsloth의 4비트 양자화를 이용해 Qwen3-35B-A3B를 노트북에서 24시간 무료로 실행할 수 있다는 내용이다. 로컬 환경에서 대형 AI 모델을 상시 구동하는 실용적인 오픈소스 추론 사례로, 개인 개발자와 연구자에게 유용한 배포/실험 옵션을 제시한다.

https://x.com/_lewtun/status/2054511872137650366

#qwen #llamacpp #unsloth #quantization #opensource

Lewis Tunstall (@_lewtun) on X

You can now have an AI researcher running on your laptop 24/7 for free! Running Qwen3-35B-A3B with llama.cpp and a 4-bit quant from Unsloth

X (formerly Twitter)

antirez (@antirez)

M5 Max 128GB MacBook Pro를 받았다고 밝히며, 이를 통해 DwarfStar4(DS4) 개발을 더 진행하고 M3 Max와 M5 Max 사이에 Q4 양자화 모델을 분산 추론하는 실험을 할 계획이라고 밝혔다. 최신 애플 실리콘 기반 메탈 하드웨어 활용 사례다.

https://x.com/antirez/status/2054172254536122398

#apple #metal #distributedinference #quantization #llm

antirez (@antirez) on X

Announcing with gratitude that @audreyt just gifted me an M5 Max 128GB MacBook Pro! It will let me develop DwarfStar4 (DS4) further on newer Metal hardware, and experiment with distributed inference splitting Q4 quants across the M3 Max and the M5 Max. Thanks so much, Audrey!

X (formerly Twitter)

Alex Zhao (@cocohearts)

parameter golf 이벤트에서 2,000건 이상의 제출과 1,000개 이상의 GitHub 인증 계정이 참여했으며, quantization, depth recurrence, TTT LoRA, SSMs, H-nets, JEPA 등 다양한 아이디어가 제출됐다. autoresearch가 반복 실험을 크게 가속화했다.

https://x.com/cocohearts/status/2054279323998409121

#autoresearch #llm #quantization #opensource #research

Alex Zhao (@cocohearts) on X

parameter golf was a blast. 2,000+ submissions. 1,000+ verified github accounts. ideas ranging from quantization and depth recurrence to TTT LoRA, SSMs, H-nets, JEPA, and more. autoresearch made iteration dramatically faster — and led to emergent bulletin boards, issue threads,

X (formerly Twitter)

Carlo (@Italianclownz)

UnslothAI와 Alibaba Qwen의 Qwen 3.6 35B A3B MTP MXFP4_MoE를 Hugging Face에서 테스트한 결과가 공유됐다. MTP, TriAttention, TurboQuant를 비교했으며, 저사양 하드웨어(RTX 3060 12GB) 환경에서 TurboQuant가 가장 좋은 성능을 보여 MTP를 앞섰고, TriAttention은 긴 컨텍스트에서만 이점이 있었다.

https://x.com/Italianclownz/status/2054301170605113438

#unsloth #qwen #huggingface #quantization #llm

Carlo (@Italianclownz) on X

Tested MTP, TriAttention, TurboQuant on @UnslothAI @Alibaba_Qwen Qwen 3.6 35B A3B MTP MXFP4_MoE on @huggingface @no_stp_on_snek TurboQuant came out on top beating MTP. TriAttention only saw gains at higher context windows. Hardware: RTX 3060 12 GB, i5 8th gen, 46 GB RAM

X (formerly Twitter)
LM Studio Model Quantization Nedir? RAM Dostu Yapay Zeka Rehberi - Blog

LM Studio’da model quantization nedir, Q4, Q5, Q8 ne anlama gelir? RAM dostu yapay zeka kullanımı için kuantizasyon seviyelerini öğrenin.

1YZ - Türkiye Yapay Zeka Topluluğu, ChatGPT, Gemini ve Prompt Rehberleri

Unsloth Joins PyTorch Ecosystem

Unsloth가 PyTorch 에코시스템에 공식 합류하며 PyTorch와 긴밀한 협력을 시작했다. Unsloth는 로컬 LLM 훈련 및 추론을 위한 인프라와 500개 이상의 모델을 지원하는 오픈소스 UI인 Unsloth Studio를 제공하며, 다양한 양자화 기법과 맞춤형 Triton 커널로 훈련 속도 향상과 VRAM 절감을 달성했다. PyTorch와의 협업으로 FP8 RL 지원, 모바일 LLM 실행, 4비트 양자화 인식 훈련(QAT) 등 효율성 및 정확도 개선을 이뤘다. 이번 합류로 Unsloth는 PyTorch 커뮤니티 내 영향력과 협업 기회를 확대하며 오픈소스 AI 생태계 발전에 기여할 전망이다.

https://unsloth.ai/blog/pytorch

#pytorch #llm #quantization #opensource #training

Unsloth Joins the PyTorch Ecosystem

Unsloth officially joins the PyTorch ecosystem to help make training and running of AI models more accessible.

Unsloth - Train and Run Models Locally

In search of wasted bits: how much information do LLM weights carry?

LLM 가중치의 정보량을 Shannon 엔트로피로 분석한 결과, BF16 포맷에서 16비트 중 약 10.6비트만 실제 정보로 사용되고 나머지는 낭비되는 것으로 나타났습니다. 특히 지수(exponent) 부분에서 정보량이 적어 낭비가 집중되며, 이는 가중치 크기가 좁은 범위에 집중되어 있기 때문입니다. FP8, FP4 등 더 낮은 비트폭 포맷으로 갈수록 낭비가 줄어들지만, 4비트 이하에서는 모델이 가중치 분포를 포맷에 맞게 조정해야 하는 한계가 있습니다. 이 연구는 LLM 가중치 저장 및 전송 효율 개선과 관련된 중요한 통찰을 제공합니다.

https://fergusfinn.com/blog/weight-entropy/

#llm #quantization #entropy #weightcompression #floatingpoint

In search of wasted bits: how much information do LLM weights carry?

An empirical investigation into the byte-level entropy of model weights across numeric formats and model families.