Show HN: Sipsa Inference – lossless serving at 50% off

Sipsa Inference는 14개 아키텍처에 대해 5비트 가중치 압축을 적용한 손실 없는 추론 서비스를 제공하며, 각 모델의 성능과 무결성을 SHA-256 해시와 JSON 평가 영수증으로 검증할 수 있다. RTX 5090 GPU 2대를 사용해 405B급 모델도 32GB 단일 GPU에서 스트리밍 압축으로 실행 가능하며, 무료 API 베타도 제공한다. 검증 도구는 실제 바이트 단위로 모델 무결성을 확인해 'lossless'를 신뢰 가능한 계약으로 만든 점이 특징이다. 다양한 모델과 압축 기법의 성공 및 실패 사례를 투명하게 공개해 AI 모델 압축 및 추론 최적화에 실질적 가치를 제공한다.

https://sipsalabs.com/inference

#modelcompression #inference #llm #gpu #api

Inference Benchmarks — Sipsa Labs

Live verified benchmark matrix: Mistral-7B 1.00548×, Hermes-3-405B 1.0066×, Phi-3-mini 1.00262×, all with reproducer commands and SHA-256 manifests.

Honey, I Shrunk the Circuits

본 연구는 밀집 언어 모델 내 분산된 능력을 소규모 인과 서브스트레이트(회로)로 추출 가능하도록 저랭크 회로 컨디셔닝(low-rank circuit conditioning) 기법을 제안한다. 기존 모델에서는 덧셈 능력이 MLP 채널의 29%만으로는 정확히 복구되지 않았으나, 컨디셔닝 후에는 5% 채널만으로 91% 이상의 정확한 덧셈 결과를 재현할 수 있게 되었다. 이는 모델 압축과 회로 추출 가능성을 높여, 능력의 라우팅, 감사, 업데이트, 제거가 가능한 새로운 방향을 제시한다. 실험은 Qwen 모델을 활용해 엄격한 덧셈 작업을 통해 회로의 인과적 역할을 검증했다.

https://tokenbender.com/posts/honey-i-shrunk-the-circuits/

#modelcompression #mechanisticinterpretability #lowrankconditioning #mlp #qwen

Honey, I shrunk the circuits!

Low-rank circuit conditioning makes an existing dense-model capability recoverable as a compact causal mask.

tokenbender

TriAttention을 오픈소스로 공개했습니다. 24GB RTX 4090 한 대에서 32B LLM 'OpenClaw'를 배포할 수 있으며, 전체 코드가 오픈소스이고 vLLM 호환으로 원클릭 배포가 가능합니다. 추론 속도 2.5×, KV 캐시 메모리 10.7× 절감. TriAttention은 Pre‑RoPE 공간에서 삼각함수 기반의 KV 캐시 압축 기법입니다.

https://x.com/yukangchen_/status/2041366586423165152

#triattention #opensource #llm #inference #modelcompression

Yukang Chen (@yukangchen_) on X

We’re thrilled to open-source TriAttention! 🚀 🦞 Deploy OpenClaw (32B LLM) on a single 24GB RTX 4090 locally 💻Full code open-source & vLLM-ready for one-click deployment ⚡️ 2.5× faster inference speed & 10.7× less KV cache memory usage TriAttention is a novel KV cache

X (formerly Twitter)

Authors: Federico Marcuzzi (INSAIT - Institute for Computer Science, Artificial Intelligence and Technology), Xuefei Ning (Tsinghua University), Roy Schwartz (The Hebrew University of Jerusalem), and Iryna Gurevych (UKP Lab, Technische Universität Darmstadt and ATHENE Center).

See you at #EACL2026 in Rabat 🕌!

#UKPLab #NLProc #ResponsibleAI #Quantization #MLSafety #Fairness #TrustworthyAI #ModelCompression #LLMSafety #EthicalAI #NLP #AIResearch

AshutoshShrivastava (@ai_for_success)

구글이 TurboQuant라는 새로운 모델 압축 기술을 공개했다. 모델 메모리를 최대 6배 줄이고, KV cache를 약 3비트까지 축소하며, 미세조정 없이도 정확도 손실 없이 최대 8배 속도 향상을 기대할 수 있다고 소개한다.

https://x.com/ai_for_success/status/2036658834266378734

#google #turboquant #modelcompression #llm #quantization

AshutoshShrivastava (@ai_for_success) on X

🚨 Google just introduced TurboQuant, a new way to massively compress AI models without losing accuracy. TLDR - TurboQuant compresses model memory up to 6x with zero accuracy loss - Can shrink KV cache down to ~3 bits without fine tuning - Up to 8x speed improvement in

X (formerly Twitter)

Sebastian Raschka (@rasbt)

Ch08 노트북(Reasoning-from-scratch 리포지토리)이 GitHub에 공개되었습니다. LLM을 대상으로 한 'hard distillation' 구현 예제 코드로, 어떤 LLM에도 적용 가능한 증류 기법을 다루며 서비스 약관 준수를 명시합니다. 실습용 코드와 챕터 자료가 포함되어 있어 연구자·개발자에게 유용한 오픈소스 리소스입니다.

https://x.com/rasbt/status/2031730268596310141

#llm #distillation #github #modelcompression

Sebastian Raschka (@rasbt) on X

The Ch08 Nb on distilling LLMs is now on GitHub: https://t.co/bPRyIU5BhH Hard distillation that works with any LLM (minding the terms of service, of course).

X (formerly Twitter)

New research shows KV‑cache compaction can slash LLM memory usage by up to 50× while preserving quality. With chunked processing and attention‑matching tricks, models like Llama 3.1 and Qwen‑3 handle far longer contexts—great news for open‑source and enterprise workloads. Dive into the benchmarks! #KVCaching #LLMMemory #LongContexts #ModelCompression

🔗 https://aidailypost.com/news/kv-cache-compaction-cuts-llm-memory-50-chunked-processing-long

TechRadar (@techradar)

Multiverse가 OpenAI 언어 모델을 압축한 새로운 모델을 출시했습니다. 이 모델은 메모리 요구량을 줄이고 AI 인프라 비용을 낮추도록 설계되어 대규모 배포와 비용 최적화에 기여할 수 있습니다.

https://x.com/techradar/status/2029005031559856507

#multiverse #openai #modelcompression #llm #aiinfrastructure

TechRadar (@techradar) on X

Multiverse launches compressed OpenAI language model designed to cut memory needs and lower AI infrastructure costs. https://t.co/OhNIm17pzI

X (formerly Twitter)

fly51fly (@fly51fly)

Mila 오타와 AI 연구소 연구진이 DNA 시퀀스를 다루는 장문 컨텍스트 모델링을 위한 'GeneZip'이라는 영역 기반 압축 방법을 발표했습니다. 이 연구는 생명정보학 및 생물학 데이터 분석에서 AI 모델의 효율성을 향상시킬 새로운 접근법으로 평가됩니다.

https://x.com/fly51fly/status/2026053448253550679

#genomics #airesearch #modelcompression #dnamodeling

fly51fly (@fly51fly) on X

[LG] GeneZip: Region-Aware Compression for Long Context DNA Modeling J Zhao, X Liu, Z Zhan, X Yuan... [Mila - Ouébec AI Institute] (2026) https://t.co/hX1OgNwNsT

X (formerly Twitter)

fly51fly (@fly51fly)

Graz 공과대학교 연구진이 'Cut Less, Fold More'라는 제목의 논문을 통해 투영 기하학 관점에서 모델 압축 기법을 제시했습니다. 이 연구는 AI 모델의 크기를 줄이면서도 성능을 유지하거나 향상시키는 새로운 접근법을 소개하며, 효율적인 경량 AI 모델 개발에 기여할 수 있습니다.

https://x.com/fly51fly/status/2026055675458294270

#modelcompression #research #aiefficiency #deeplearning

fly51fly (@fly51fly) on X

[LG] Cut Less, Fold More: Model Compression through the Lens of Projection Geometry O Saukh, D Wang, H Šikić, Y Cheng... [Graz University of Technology] (2026) https://t.co/SyQFiGy57n

X (formerly Twitter)