[Перевод] Сначала я не поверил глазам: GPT-5.3-Codex-Spark выдает код моментально. Cerebras просто засунул память внутрь чипа

Внимание, розыск! Пропала задержка инференса. Последний раз ее видели с чипом Cerebras. Пока все следили за гонкой вооружений в мире LLM – кто кого переплюнет по количеству параметров, – OpenAI взяла и сделала неожиданный ход. Они выпустили модель, которая даже не новая, но работает в 20 раз быстрее конкурентов. GPT-5.3 Codex Spark летает. Буквально. И тут возникает вопрос: а на чём она, собственно, летит? Оказалось, что “двигатель” для неё поставила не Nvidia, а компания с безумной, на первый взгляд, идеей – использовать процессор размером с кремниевую пластину . Проблема современных GPU в том, что они вынуждены постоянно “танцевать” с памятью, тратя время на пересылку данных туда-обратно. Cerebras предложила радикальное решение: убрать “танцпол” и заставить память и вычисления жить в одном доме – на огромном кристалле размером с пластину. Как инженерам удалось обуздать производственные дефекты, нагревание и законы физики, чтобы достичь скорости 1000 токенов/с, и почему это не панацея для ИИ-агентов – разбираемся в статье. Приятного погружения в мир wafer-scale-инженерии!

https://habr.com/ru/companies/bothub/articles/1002500/

#chatgpt_53_codex_spark #llm #openai #nvidia #cerebra #wafer_scale_engine #high_bandwidth_memory #rubin_ultra #tsmc

Сначала я не поверил глазам: GPT-5.3-Codex-Spark выдает код моментально. Cerebras просто засунул память внутрь чипа

Внимание, розыск! Пропала задержка инференса. Последний раз ее видели с чипом Cerebras. Пока все следили за гонкой вооружений в мире LLM – кто кого переплюнет по количеству параметров, – OpenAI взяла...

Хабр