Sebastian Raschka (@rasbt)
새로운 LLM Architecture Gallery를 정리해 공개했습니다. 다양한 대형언어모델(LLM)의 아키텍처 그림을 한곳에 모아 비교·참고하기 쉽게 만들었으며, 관련 페이지(https://sebastianraschka.com/llm-architecture-gallery/) 링크를 제공하여 개발자와 연구자가 구조를 빠르게 확인할 수 있습니다.
Sebastian Raschka (@rasbt)
새로운 LLM Architecture Gallery를 정리해 공개했습니다. 다양한 대형언어모델(LLM)의 아키텍처 그림을 한곳에 모아 비교·참고하기 쉽게 만들었으며, 관련 페이지(https://sebastianraschka.com/llm-architecture-gallery/) 링크를 제공하여 개발자와 연구자가 구조를 빠르게 확인할 수 있습니다.
Tencent HY (@TencentHunyuan)
정적 모델로는 충분하지 않다며 최신 연구 'Functional Neural Memory'를 공개했습니다. 이 접근법은 각 입력마다 맞춤형 파라미터를 생성해 모델을 즉시 프롬프트로 제어하고 즉각적 개인화, 개선된 지시 이행을 가능하게 하며 유연한 모델 동작을 목표로 합니다.
https://x.com/TencentHunyuan/status/2029644529578692723
#functionalneuralmemory #modelarchitecture #personalization #parametergeneration

One static model does not fit all😭 We just dropped our latest work: Functional Neural Memory. Instead of static models, we generate custom "parameters" for every single input. ✅Prompt your model anytime ✅Instant personalization ✅Better instruction following ✅Flexible &
Emily (@IamEmily2050)
Grok 에이전트 아키텍처의 채택 방식에 대해 설명하는 글로, 대규모 단일 모델을 수개월에 걸쳐 훈련·사후처리하는 방식 대신 소형·효율적인 모델들을 사용해 수주 내에 개선 가능한 구조라고 주장합니다. 향후 몇 달 내 광범위한 채택을 예측하고 있습니다.

It seems many people still don't understand how the new Grok agents architecture will be adopted by everyone in the coming months. Instead of one big model taking six months to finish training and post training, it uses small, efficient models that are easy to improve in weeks,
Aakash Harish (@0_Aakash_0)
작성자는 Spark가 전체 Codex 모델을 대체하는 것이 아니라 '속도 계층(speed layer)'이라고 주장. 합리적인 패턴으로는 더 똑똑한 모델(Codex 또는 Opus)으로 계획을 수립하고, Spark를 고속·작업용으로 사용하는 분업적 접근을 제안함 — 모델 조합 전략에 관한 실무적 통찰.

@daniel_mac8 Your last point is the key insight here and I think it's actually the right mental model for the entire Spark lineup. Spark isn't a replacement for the full Codex model. It's a speed layer. The pattern that makes sense: 1. Use the smarter model (Codex or Opus) to plan
New model architecture: Xiaomi MiMo (MiMo-V2-Flash)
MiMo explores multi-token prediction (MTP) to increase inference throughput by generating and verifying multiple draft tokens in parallel. By keeping the MTP block lightweight, it achieves significant speedups without increasing KV-cache overhead—pointing to architectural innovation beyond pure scaling.
#LLMs #ModelArchitecture #AIResearch
https://mimo.xiaomi.com/blog/mimo-v2-flash