Tom Maiaroto (@tmaiaroto)
컨텍스트 윈도우를 256k로 확장했는데도 여전히 93~95 tokens/sec 속도를 유지한다는 성능 테스트 결과입니다. 매우 긴 컨텍스트에서도 추론 속도가 안정적으로 유지된다는 점이 인상적입니다.
Tom Maiaroto (@tmaiaroto)
컨텍스트 윈도우를 256k로 확장했는데도 여전히 93~95 tokens/sec 속도를 유지한다는 성능 테스트 결과입니다. 매우 긴 컨텍스트에서도 추론 속도가 안정적으로 유지된다는 점이 인상적입니다.
Subquadratic LLM 12 million tokens ctx [video]
nDimensionsAI가 발표한 SubQ는 기존 트랜스포머 기반 LLM의 비효율적인 연산을 Sparse-Attention Architecture(SSA)를 통해 개선하여 1200만 토큰의 초대형 컨텍스트 윈도우를 지원하는 모델입니다. SubQ는 100만 토큰 기준 FlashAttention 대비 52배 빠르고, Opus 대비 95% 비용 절감, 1000배 적은 연산량을 자랑하며, 대규모 문맥 처리의 새로운 가능성을 제시합니다. 다만 현재 논문이나 코드 공개가 없어 커뮤니티 내에서는 검증과 신뢰성에 대한 의문이 제기되고 있습니다.

Cursor (@cursor_ai)
Cursor 3.3에서 에이전트의 컨텍스트 사용량을 세부적으로 확인할 수 있는 기능이 추가됐다. rules, skills, MCPs, subagents별 사용 통계를 통해 컨텍스트 문제를 진단하고 설정을 개선할 수 있다.
The context window has been shattered: Subquadratic debuts 12M-token window
Subquadratic이 1,200만 토큰의 초대형 컨텍스트 윈도우를 선보이며 기존의 한계를 뛰어넘었다는 소식입니다. 이는 대규모 언어 모델(LLM)에서 문맥 처리 능력을 획기적으로 확장할 수 있는 기술적 진전으로, AI 개발자와 연구자들에게 중요한 의미를 가집니다. 대규모 토큰 윈도우는 더 긴 문서나 복잡한 대화의 이해도를 높여 다양한 AI 응용 분야에 영향을 줄 수 있습니다.
https://thenewstack.io/subquadratic-12-million-context-window/
#contextwindow #largelanguagemodel #tokenwindow #subquadratic #aidevelopment
Bindu Reddy (@bindureddy)
SubQ라는 새로운 AI 모델이 Opus 4.7과 GPT 5.5보다 50배 빠르고 20배 저렴하다고 주장했다. 벤치마크 성능도 매우 뛰어나며 1200만 토큰 컨텍스트를 지원한다고 소개해, 사실이라면 큰 파급력을 가질 만한 발표로 언급됐다.

SubQ , a new type of AI model, says they are 50x faster and 20x cheaper than Opus 4.7 and GPT 5.5 In fact, they also say they perform INSANELY WELL on benchmarks and have a 12M context This would be earth shattering, if true - Anthropic/OpenAI's valuation would go to zero 😱
EyeingAI (@EyeingAI)
기존 대규모 컨텍스트 윈도우 중심의 접근이 정확도 저하와 비용 증가를 초래했다는 문제의식과 함께, SubQ가 이 문제를 해결하는 새로운 버전의 해법처럼 언급됐다. AI 시스템 설계 방식의 변화 가능성을 시사하는 내용이다.

Lmao so the big secret was that everyone was paying insane money for a broken setup.. The whole industry kept pushing bigger context windows like that solved anything while accuracy kept falling off & costs kept getting worse. SubQ is the first version of this story that feels
Paul Couvert (@itsPaulAi)
새 모델이 1,200만 토큰의 초대형 컨텍스트 윈도우를 제공하면서도 정확도 98%를 유지하고, Opus 4.7 대비 속도는 52배 빠르며 비용은 5% 수준이라고 소개됐다. 긴 문맥 처리 문제를 크게 개선할 수 있는 인상적인 모델 성능이다.
Python Trending (@pythontrending)
token-optimizer는 컨텍스트 압축 과정에서 사라지거나 왜곡되는 'ghost tokens'를 찾아 수정해, 컨텍스트 품질 저하를 줄이는 도구다. 긴 문맥을 다루는 AI 애플리케이션과 에이전트 워크플로우에서 토큰 효율성과 출력 안정성을 개선하는 데 유용하다.
vitrupo (@vitrupo)
Demis Hassabis가 큰 컨텍스트 윈도우만으로는 메모리 문제를 해결할 수 없다고 언급했다. 인간의 뇌처럼 중요한 정보를 선별해 재구성하는 방식의 기억 설계가 AI에 더 필요하다는 내용으로, 장기 기억과 컨텍스트 관리 연구 방향을 시사한다.

Demis Hassabis says bigger context windows are still a brute force answer to memory. The human brain does something stranger. During sleep, it replays what matters and folds new knowledge into what it already knows. AI does not need infinite context. It needs the right memory