TriAttention을 오픈소스로 공개했습니다. 24GB RTX 4090 한 대에서 32B LLM 'OpenClaw'를 배포할 수 있으며, 전체 코드가 오픈소스이고 vLLM 호환으로 원클릭 배포가 가능합니다. 추론 속도 2.5×, KV 캐시 메모리 10.7× 절감. TriAttention은 Pre‑RoPE 공간에서 삼각함수 기반의 KV 캐시 압축 기법입니다.

https://x.com/yukangchen_/status/2041366586423165152

#triattention #opensource #llm #inference #modelcompression

Yukang Chen (@yukangchen_) on X

We’re thrilled to open-source TriAttention! 🚀 🦞 Deploy OpenClaw (32B LLM) on a single 24GB RTX 4090 locally 💻Full code open-source & vLLM-ready for one-click deployment ⚡️ 2.5× faster inference speed & 10.7× less KV cache memory usage TriAttention is a novel KV cache

X (formerly Twitter)