Mercury 2, 확산 방식으로 기존 추론 모델보다 8배 빠른 LLM 등장
Inception Labs의 Mercury 2는 확산(diffusion) 방식으로 구현한 첫 상용 추론 모델. 엔드투엔드 레이턴시 1.7초로 기존 추론 모델 대비 최대 8배 빠른 속도를 제공합니다.Mercury 2, 확산 방식으로 기존 추론 모델보다 8배 빠른 LLM 등장
Inception Labs의 Mercury 2는 확산(diffusion) 방식으로 구현한 첫 상용 추론 모델. 엔드투엔드 레이턴시 1.7초로 기존 추론 모델 대비 최대 8배 빠른 속도를 제공합니다.Deedy (@deedydas)
Inception Labs(스탠퍼드·코넬·UCLA 출신 교수 3명)가 Mercury 2를 발표했으며, 이를 '최초의 추론 기반 언어 및 코드 확산(diffusion) 모델'이라 소개합니다. 성능 대비 비용이 낮고 속도가 10배 빠르다고 주장하는 모델 출시 소식으로, 새로운 모델 아키텍처 및 비용·속도 경쟁력 측면에서 주목받고 있습니다.

Inception Labs is the AI co everyone's sleeping on. 3 profs from Stanford, Cornell and UCLA just dropped Mercury 2, the first reasoning language (and code) diffusion model ever. It is 10x faster and the cheapest model for its quality. They're not quite at frontier like the
Wes Roth (@WesRoth)
Inception Labs가 Mercury 2를 출시했다고 발표함. Mercury 2는 기존의 토큰 순차 생성 방식이 아니라 노이즈에서 시작해 전체 시퀀스를 반복적으로 정제하는 'Diffusion LLM' 방식을 채택해 초당 1,000개 이상의 토큰 생성 속도를 달성했다고 설명, 텍스트 생성 패러다임과 처리 속도에 변화가 예상됨.

The Diffusion LLM Hitting 1,000+ Tokens Per Second Inception Labs just launched Mercury 2, and it is changing how language models generate text. Instead of outputting one word at a time sequentially, Mercury 2 is a "Diffusion LLM." It starts with noise and refines the entire
Mercury 2 nutzt Diffusion für Reasoning.
Inception Labs setzt nicht auf Transformer, sondern verfeinert Textbausteine parallel. Das Resultat sind 1.009 Tokens pro Sekunde und 1,7 Sekunden Latenz auf Nvidia-Blackwell Hardware.
Das Modell bietet 128k Kontextfenster, JSON-Output und ist deutlich schneller als Claude oder Gemini.
#Mercury2 #InceptionLabs #KI
https://www.all-ai.de/news/news26top/inception-labs-geschwindigkeit-llm
Mercury 2: The fastest reasoning LLM, powered by diffusion
https://www.inceptionlabs.ai/blog/introducing-mercury-2
#HackerNews #Mercury2 #FastestLLM #DiffusionAI #AIResearch #TechInnovation