97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя.

https://habr.com/ru/companies/borisovai/articles/1010470/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #llm #research

97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

Меня зовут Борисов Павел, занимаюсь ML-исследованиями. Последние месяцы ковырялся с архитектурой MoE, где эксперты подключаются поверх замороженной модели. 22 эксперимента на одной RTX 4090, ниже...

Хабр

97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.

https://habr.com/ru/articles/1005168/

#mixture_of_experts #moe #selfdistillation #dynamic_architecture #pytorch #llm #research

97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5...

Хабр

Jonas Hübotter (@jonashuebotter)

Latent Space 팟캐스트(@latentspacepod)에서 Ted Kyi가 진행한 self-distillation(자기증류) 토론을 발견했다는 소식입니다. 발언자는 자기증류에 대한 훌륭한 정리와 향후 연구·적용 가능성에 대한 기대감을 표명하고 있습니다. 연구자·개발자 관점에서 관심을 끌 만한 내용입니다.

https://x.com/jonashuebotter/status/2023112694015173082

#selfdistillation #research #podcast #latentspace

Jonas Hübotter (@jonashuebotter) on X

Just came across this great discussion of self-distillation on @latentspacepod! Really good run down by Ted Kyi and we’re every bit excited about what’s next as he is! https://t.co/G5LrWlOT8B

X (formerly Twitter)

fly51fly (@fly51fly)

ETH Zurich 연구진의 'Reinforcement Learning via Self-Distillation'(2026) arXiv 논문이 공개되었습니다. 논문은 강화학습에 자기증류(self-distillation)를 접목한 방법론을 제안하며 관련 링크(arXiv)가 제공됩니다. 저자로 J Hübotter, F Lübeck, L Behric, A Baumann이 표기되어 있습니다.

https://x.com/fly51fly/status/2016992229261529388

#reinforcementlearning #selfdistillation #research #arxiv

fly51fly (@fly51fly) on X

[LG] Reinforcement Learning via Self-Distillation J Hübotter, F Lübeck, L Behric, A Baumann... [ETH Zurich] (2026) https://t.co/JNuKhITPFd

X (formerly Twitter)

fly51fly (@fly51fly)

arXiv 논문 'Self-Distillation Enables Continual Learning' 발표: 자기 증류(self-distillation)를 활용해 연속 학습(continual learning) 성능을 개선하는 방법을 제안합니다. 저자들은 이 접근이 기존 방법 대비 잔존 성능과 안정성을 높여 재훈련 없이 지식 유지에 도움된다고 보고합니다. (저자/소속 포함: I. Shenfeld 외, MIT·ETH Zurich)

https://x.com/fly51fly/status/2016637249690227099

#continuallearning #selfdistillation #arxiv #research

fly51fly (@fly51fly) on X

[LG] Self-Distillation Enables Continual Learning I Shenfeld, M Damani, J Hübotter, P Agrawal [MIT & ETH Zurich] (2026) https://t.co/OLn6p7k4pW

X (formerly Twitter)

fly51fly (@fly51fly)

논문 'Self-Distilled Reasoner'는 LLM에 대해 on-policy self-distillation 기법을 제안해 추론 능력과 안정성을 향상시키는 방법을 다룹니다. Meta, UCLA, HKU 공동 연구로, 모델 자체의 온-폴리시 데이터를 활용한 자기증류로 reasoning 성능을 끌어올리는 접근과 실험 결과를 제시합니다.

https://x.com/fly51fly/status/2016287044168040650

#llm #selfdistillation #reasoning #airesearch

fly51fly (@fly51fly) on X

[LG] Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models S Zhao, Z Xie, M Liu, J Huang... [Meta & UCLA & HKU] (2026) https://t.co/1XCXtuNf9d

X (formerly Twitter)