SubQ: Sub-quadratic LLM built for 12M-token reasoning

SubQ는 12백만 토큰의 긴 문맥 추론을 지원하는 최초의 완전한 서브쿼드러틱(sub-quadratic) LLM으로, 전체 코드 저장소, 긴 이력, 지속 상태를 품질 저하 없이 처리할 수 있다. 기존 트랜스포머의 O(n²) 복잡도를 O(n)으로 줄인 희소 어텐션 아키텍처를 적용해 계산량을 1,000배 이상 절감하며, 긴 문맥 기반 소프트웨어 엔지니어링 작업에서 우수한 성능을 보인다. 개발자와 기업을 위한 API와 코딩 에이전트용 레이어를 제공하며, OpenAI 호환 엔드포인트와 통합 가능하다. 이는 LLM의 긴 문맥 처리 한계를 근본적으로 확장하는 혁신적 아키텍처다.

https://subq.ai/

#llm #longcontext #transformer #sparseattention #aiarchitecture

Subquadratic — Efficiency is Intelligence

Subquadratic is a frontier AI research and infrastructure company building a new class of LLMs.

Subquadratic

Subquadratic LLM 12 million tokens ctx [video]

nDimensionsAI가 발표한 SubQ는 기존 트랜스포머 기반 LLM의 비효율적인 연산을 Sparse-Attention Architecture(SSA)를 통해 개선하여 1200만 토큰의 초대형 컨텍스트 윈도우를 지원하는 모델입니다. SubQ는 100만 토큰 기준 FlashAttention 대비 52배 빠르고, Opus 대비 95% 비용 절감, 1000배 적은 연산량을 자랑하며, 대규모 문맥 처리의 새로운 가능성을 제시합니다. 다만 현재 논문이나 코드 공개가 없어 커뮤니티 내에서는 검증과 신뢰성에 대한 의문이 제기되고 있습니다.

https://www.youtube.com/watch?v=kEiuMnosuxU

#llm #sparseattention #contextwindow #efficiency #scaling

The Transformer Era is Over. Welcome to SubQ.

YouTube

mrciffa (@davideciffa)

Luce PFlash가 prefix caching, cold-start 튜닝, CUDA VMM 수정과 block sparse attention autotune 개선으로 크게 빨라졌습니다. warm 상태는 약 10배, cold 상태는 약 2.5배 향상됐으며 Qwen3.6 27B에서 사용 가능하다고 밝혔습니다.

https://x.com/davideciffa/status/2050906786232689033

#caching #cuda #sparseattention #qwen #llm

mrciffa (@davideciffa) on X

Huge thanks to @dusterbloom and @easel for implementing prefix caching + cold-start tuning and the upstream CUDA VMM fix. Luce PFlash is now ~10× faster warm, ~2.5× faster cold (block sparse attention autotune). Live for Qwen3.6 27B! 🏎️ https://t.co/759mZeZ3X3

X (formerly Twitter)

Avi Chawla (@_avichawla)

DeepSeek V3.2의 128K 컨텍스트에서 프리필링과 디코딩 비용이 크게 감소했다고 설명한다. 성능은 유지되거나 일부 장문 벤치마크에서는 오히려 향상됐으며, 희소 어텐션을 실제로 안정적으로 적용한 점이 핵심 성과로 제시된다.

https://x.com/_avichawla/status/2048312941251068309

#deepseek #v3.2 #sparseattention #llm #benchmark

Avi Chawla (@_avichawla) on X

At 128K context, prefilling costs drop from ~$0.65 to ~$0.35 per million tokens. And Decoding drops from ~$2.4 to ~$0.8. And the performance stays the same. On some long-context benchmarks, V3.2 actually scores higher. Sparse attention isn’t new. But making it work without

X (formerly Twitter)

Avi Chawla (@_avichawla)

DeepSeek가 최근 공개한 V3.2 모델에 DeepSeek Sparse Attention(DSA)을 도입해, 어텐션 복잡도를 O(L²)에서 O(Lk)로 낮췄다는 내용이다. 긴 문맥 처리에서 효율성을 크게 개선하는 희소 어텐션 기술과 Lightning Indexer의 동작 원리를 소개한다.

https://x.com/_avichawla/status/2048312925904052649

#deepseek #sparseattention #llm #longcontext #ai

Avi Chawla (@_avichawla) on X

3) DeepSeek Sparse Attention (DSA) DeepSeek’s recently released V3.2 model introduced DeepSeek Sparse Attention (DSA), which brought complexity down from O(L²) to O(Lk), where k is fixed. How it works: A lightweight Lightning Indexer scores which tokens actually matter for

X (formerly Twitter)

fly51fly (@fly51fly)

Block-wise diffusion language model을 위한 새로운 sparse attention 기법인 LoSA(Locality Aware Sparse Attention)가 제안되었다. 지역성 인식을 반영한 효율적 어텐션 설계로, 확산 기반 언어 모델의 계산 효율과 성능 개선 가능성이 있는 연구다.

https://x.com/fly51fly/status/2044532078168117320

#attention #diffusionlm #sparseattention #research #pytorch

fly51fly (@fly51fly) on X

[CL] LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models H Xi, H Singh, Y Hu, C Hooper… [UC Berkeley] (2026) https://t.co/PYr09wMguk

X (formerly Twitter)

AISatoshi (@AiXsatoshi)

DeepSeek-V3.2와 GLM-5의 sparse attention(DSA)이 현재 vLLM에서는 Hopper 또는 Blackwell 계열 GPU에서만 사용할 수 있는지에 대한 개발자 관점의 이슈가 언급됐다. 최신 대규모 모델의 서빙 호환성과 가속 지원 범위가 핵심 포인트다.

https://x.com/AiXsatoshi/status/2035509839858962685

#deepseek #glm5 #vllm #sparseattention #llm

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

DeepSeek-V3.2や、GLM-5のsparse attention(DSA)って、現状のvLLMではHopperやBlackwell deviceでしか使えないのか。。

X (formerly Twitter)

Awni Hannun (@awnihannun)

Transformer 아키텍처에 대해 '긴 KV 캐시와 희소 조회(sparse lookup, DSA 유사)'가 균형적이라는 기술적 의견을 제시하는 트윗입니다. 토큰에 따라 메모리가 선형적으로 늘고(장기 기억·인컨텍스트 학습에 유리), 계산량은(거의) 선형에 가깝다고 설명합니다. 아키텍처 최적화 제안입니다.

https://x.com/awnihannun/status/2024580405844914184

#transformer #kvcache #sparseattention #incontextlearning

Awni Hannun (@awnihannun) on X

A long KV cache with sparse lookup (kind of like DSA) strikes me as the right balance for a Transformer. - Memory is not fixed but scales linearly with tokens (which is good for remembering things + in-context learning) - Compute is (almost) linear rather than quadratic

X (formerly Twitter)

Tarjei Mandt (@kernelpool)

스파스 어텐션(sparse attention)이 prefill 단계에서 처리 속도를 저하시킨다는 기술적 관찰을 공유하며, 해당 문제는 해결 가능하다는 언급입니다. LLM 추론 파이프라인(특히 prefill)과 어텐션 최적화 관점에서 중요한 성능 이슈와 개선 여지를 제기합니다.

https://x.com/kernelpool/status/2022691285312901537

#sparseattention #prefill #performance #modeloptimization

Tarjei Mandt (@kernelpool) on X

@ivanfioravanti The sparse attention is slowing down the prefill, however, it can be fixed

X (formerly Twitter)

Sebastian Raschka (@rasbt)

GLM-5 가중치 공개 및 아키텍처 비교 요약: 전작 대비 더 커졌고(주로 전문가 수 증가), 활성 파라미터 수는 유사하다고 합니다. 핵심 아키텍처 변경으로 multi-head latent attention과 DeepSeek Sparse Attention을 사용한다고 밝혔습니다. 가중치 공개는 연구·응용에 중요한 의미입니다.

https://x.com/rasbt/status/2021951486796976314

#glm5 #architecture #sparseattention #research

Sebastian Raschka (@rasbt) on X

The weights are out! Here's the GLM-5 architecture comparison. GLM-5 is: - bigger than its predecessor (mainly more experts) but has rel. similar active parameter counts - uses multi-head latent attention - uses DeepSeek Sparse Attention

X (formerly Twitter)