Mercury 2, 확산 방식으로 기존 추론 모델보다 8배 빠른 LLM 등장

Inception Labs의 Mercury 2는 확산(diffusion) 방식으로 구현한 첫 상용 추론 모델. 엔드투엔드 레이턴시 1.7초로 기존 추론 모델 대비 최대 8배 빠른 속도를 제공합니다.

https://aisparkup.com/posts/9652

Deedy (@deedydas)

Inception Labs(스탠퍼드·코넬·UCLA 출신 교수 3명)가 Mercury 2를 발표했으며, 이를 '최초의 추론 기반 언어 및 코드 확산(diffusion) 모델'이라 소개합니다. 성능 대비 비용이 낮고 속도가 10배 빠르다고 주장하는 모델 출시 소식으로, 새로운 모델 아키텍처 및 비용·속도 경쟁력 측면에서 주목받고 있습니다.

https://x.com/deedydas/status/2026534665843257792

#mercury2 #diffusion #reasoning #inceptionlabs

Deedy (@deedydas) on X

Inception Labs is the AI co everyone's sleeping on. 3 profs from Stanford, Cornell and UCLA just dropped Mercury 2, the first reasoning language (and code) diffusion model ever. It is 10x faster and the cheapest model for its quality. They're not quite at frontier like the

X (formerly Twitter)

Wes Roth (@WesRoth)

Inception Labs가 Mercury 2를 출시했다고 발표함. Mercury 2는 기존의 토큰 순차 생성 방식이 아니라 노이즈에서 시작해 전체 시퀀스를 반복적으로 정제하는 'Diffusion LLM' 방식을 채택해 초당 1,000개 이상의 토큰 생성 속도를 달성했다고 설명, 텍스트 생성 패러다임과 처리 속도에 변화가 예상됨.

https://x.com/WesRoth/status/2026703740577923507

#diffusionllm #mercury2 #inceptionlabs #llm #textgeneration

Wes Roth (@WesRoth) on X

The Diffusion LLM Hitting 1,000+ Tokens Per Second Inception Labs just launched Mercury 2, and it is changing how language models generate text. Instead of outputting one word at a time sequentially, Mercury 2 is a "Diffusion LLM." It starts with noise and refines the entire

X (formerly Twitter)

Mercury 2 nutzt Diffusion für Reasoning.

Inception Labs setzt nicht auf Transformer, sondern verfeinert Textbausteine parallel. Das Resultat sind 1.009 Tokens pro Sekunde und 1,7 Sekunden Latenz auf Nvidia-Blackwell Hardware.

Das Modell bietet 128k Kontextfenster, JSON-Output und ist deutlich schneller als Claude oder Gemini.
#Mercury2 #InceptionLabs #KI
https://www.all-ai.de/news/news26top/inception-labs-geschwindigkeit-llm

Inception Labs: Neues Reasoning-Modell bricht Geschwindigkeitsrekord

Mercury 2 nutzt Diffusion statt Transformer und verarbeitet 1.009 Tokens pro Sekunde. Die KI zielt auf Echtzeit-Anwendungen ab.

All-AI.de

Artificial Analysis (@ArtificialAnlys)

Inception Labs가 차세대 프로덕션급 확산 기반 LLM인 Mercury 2를 공개했습니다. Mercury 2는 초당 1,000개 이상의 토큰을 생성할 수 있으며 지능 면에서도 큰 향상을 보였습니다. 이 회사의 Diffusion LLM(dLLM)은 기존의 자동회귀(autoregressive) 모델과는 다른 새로운 아키텍처를 사용합니다.

https://x.com/ArtificialAnlys/status/2026360491799621744

#diffusion #llm #ai #modelrelease #inceptionlabs

Artificial Analysis (@ArtificialAnlys) on X

Inception Labs has launched Mercury 2, their next generation production-ready Diffusion LLM. Mercury 2 achieves >1,000 output tokens/s with significant gains in intelligence @_inception_ai's Diffusion LLMs (“dLLMs”) use a different architecture compared to autoregressive based

X (formerly Twitter)