Sudo su (@sudoingX)

한 독립 연구자가 개인 자금으로 GPU를 빌려 Hugging Face에 29개 모델을 공개했고, GLM-4.7을 맥북에서 돌릴 수 있게 압축하고 Nemotron Super를 출시 직후 양자화했다는 내용이다. 소규모 개인 연구자가 빠르게 고품질 오픈소스 모델을 배포하는 사례로 주목된다.

https://x.com/sudoingX/status/2034903929105141831

#huggingface #opensource #quantization #llm #macbook

Sudo su (@sudoingX) on X

this guy has 29 models on huggingface at page 2 ranking. no lab behind him. no sponsorship. $2,000 from his own pocket on GPU rentals. he compressed GLM-4.7 to run on a MacBook and quantized Nemotron Super the week it dropped. all public. all free. nvidia is a trillion dollar

X (formerly Twitter)

INT8 양자화로 LLM 추론 비용·지연을 줄였나요? 경험 공유해 주세요! 🤔 어떤 캘리브레이션 전략이 효과적이었나요? #INT8 #LLM #Quantization #MLOps #AI

https://aipages.net/int8-llm-%ec%b6%94%eb%a1%a0-%eb%b0%b0%ed%8f%ac-%ec%8b%a4%eb%ac%b4-%ea%b0%80%ec%9d%b4%eb%93%9c/

INT8 LLM 추론 배포 실무 가이드 - 인공지능 인사이트

INT8 양자화로 LLM 추론 비용과 지연을 획기적으로 줄이는 실전 가이드 — 체크리스트, 배포 예제, 위험요소 및 검증 방법 포함.

인공지능 인사이트

cedric (@cedric_chee)

Autoresearch가 Qwen 397B MoE를 M3에서 양자화와 SSD 스트리밍으로 구동하는 데 성공했다. 놀랍게도 하드웨어 사용률이 아직 낮아 성능 여유가 큰 것으로 보이며, 대형 MoE 모델의 로컬 실행 가능성을 보여주는 흥미로운 사례다.

https://x.com/cedric_chee/status/2034459218548535560

#qwen #moe #quantization #edgeai #llm

cedric (@cedric_chee) on X

Brilliant! Autoresearch got Qwen 397B MoE running on an M3 by quantizing and streaming weights from SSD. The wild part is it still sounds like the hardware is barely being pushed, which suggests there is a lot more performance left on the table.

X (formerly Twitter)

Baidu Inc. (@Baidu_Inc)

배포 정보: 4B 파라미터 Qianfan-OCR이 단일 GPU 서빙 가능. W8A8 양자화 적용 시 단일 NVIDIA A100에서 1.024 페이지/초 처리. 단일 vLLM 인스턴스만으로 동작해 다단계 오케스트레이션이 필요없음. Baidu Qianfan 플랫폼에 배포되었고 가중치는 HuggingFace에 공개됨.

https://x.com/Baidu_Inc/status/2034265152267415770

#qianfanocr #quantization #vllm #huggingface

AISatoshi (@AiXsatoshi)

양자화(quantization)의 영향으로 약간의 편차가 느껴져 더 미세한 튜닝이 필요하다는 지적입니다. 강화학습(reinforcement learning)이나 reasoning 기반의 스케일 업이 성능 향상에 효과적일 수 있다는 제안도 포함되어 있습니다.

https://x.com/AiXsatoshi/status/2034092284237721736

#quantization #finetuning #reinforcementlearning #reasoning

#openSUSE just released Cavil-Qwen3.5-4B; an #opensource AI model that automates #legal compliance checks for #software licenses and copyright notices. Runs on modest hardware thanks to #GGUF #quantization. #AI #Linux https://news.opensuse.org/2026/03/16/os-releases-updated-legal-classification-model/
openSUSE Releases Updated Legal Classification Model

The openSUSE Project has a new version of a language model designed to automate legal compliance checks for open-source software on the project’s HuggingFace...

openSUSE News

AISatoshi (@AiXsatoshi)

GLM-5-UD-Q4_K_XL 모델을 자택 단일 노드에서 20 tok/s, 2노드에서 27 tok/s로 측정했다는 벤치마크 결과 공유. '터보' 변형도 시도해보고 싶다는 코멘트가 포함되어 있습니다.

https://x.com/AiXsatoshi/status/2033390609701167118

#glm5 #benchmark #inference #quantization

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

GLM-5-UD-Q4_K_XL 自宅のシングルノードで20tok/s、2ノードで27tok/sだった。ターボも動かしてみたい

X (formerly Twitter)

Prince Canuma (@Prince_Canuma)

mlx-embeddings v0.1.0 출시: 새 모델로 Alibaba의 Qwen3 VL Embedding 및 Reranker와 ColDefics3(LoRA 어댑터 및 ColVision 프로세서 포함)이 추가되었습니다. NVFP4·MXFP4·MXFP8 양자화 지원이 도입되었고, Gemma3의 양방향 모델 임베딩 품질 수정이 포함됩니다.

https://x.com/Prince_Canuma/status/2032890809847029896

#mlxembeddings #embeddings #qwen3 #coldefics3 #quantization

Prince Canuma (@Prince_Canuma) on X

mlx-embeddings v0.1.0 is out! 🔥 New models: → Qwen3 VL Embedding and Reranker by @Alibaba_Qwen → ColDefics3 with LoRA adapters & ColVision processor b New features: → NVFP4, MXFP4 and MXFP8 quantization support → Gemma3 embedding quality fix for bidirectional models →

X (formerly Twitter)

AISatoshi (@AiXsatoshi)

DeepSeek-V4의 출시가 임박한 것으로 보이며, 트윗 작성자는 양자화 방식이 FP8이 아닌 INT8로 보인다고 언급하고 있습니다. 이는 모델 경량화·추론 효율 관점에서 중요한 설계 선택으로 보이며, INT8 채택 시 성능·호환성·하드웨어 요구사항에 대한 관심이 커질 수 있습니다.

https://x.com/AiXsatoshi/status/2031744529163022522

#deepseekv4 #int8 #quantization #model

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

DeepSeek-V4がいよいよか。FP8じゃなくINT8なのか?

X (formerly Twitter)

Sudo su (@sudoingX)

같은 GPU(5060 Ti 16GB)에서 모델과 양자화 설정을 바꿔 토큰 처리 속도가 12 tok/s에서 54 tok/s로 향상되었다고 보고합니다. 구성은 Qwen 3.5 9B Q4_K_XL, 컨텍스트 길이 262K, ‘thinking mode’ 활성화, 전체 모델이 GPU에 올라간 상태이며 사용된 플래그(-c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0)도 공개되었습니다. 하드웨어에 맞는 모델 선택과 양자화의 중요성을 강조합니다.

https://x.com/sudoingX/status/2031037438551019966

#qwen #quantization #gpu #llm #performance

Sudo su (@sudoingX) on X

12 tok/s to 54 tok/s. same card. right model for the hardware. 5060 Ti 16GB + Qwen 3.5 9B Q4_K_XL: 54 tok/s at 262K context, thinking mode on. full model on GPU flags: -c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0 it's not always about squeezing the biggest

X (formerly Twitter)