Mastodawn

AISatoshi (@AiXsatoshi)

gemma-4-26B 기반의 마지 모델을 제작했다는 내용이다. 얕은 층에서 base 모델의 attention을 섞어 지시 추종 성향을 약화시키는 방식이며, 사전 분석에서 IT 모델과 Base 모델의 expert 가중치가 거의 같다는 점을 바탕으로 Attention/Dense를 조정한 것으로 보인다. 오픈소스/모델 변형에 관심 있는 개발자에게 유의미하다.

https://x.com/AiXsatoshi/status/2040763040589828481

#gemma #llm #opensource #modelmerging #ai

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

gemma-4-26Bのマージモデルを作成しました浅い層でbaseモデルの注意を混ぜて指示追従学習効果を弱めたモデルとなっています事前の解析で、ITモデルとBaseモデルのexpert部分の重みはほとんど同じでしたそのため今回は、Attention/Dense

X (formerly Twitter)

sayzard Jan 19

fly51fly (@fly51fly)

논문 'SimMerge: Learning to Select Merge Operators from Similarity Signals'은 유사성 신호를 이용해 모델 병합에 사용할 merge 연산자를 학습적으로 선택하는 방법을 제안합니다. O. Bolton 등(Cohere·Google) 저자이며 arXiv에 공개되어 모델 병합과 파라미터 통합 관련 연구 및 MLOps 실무에 영향을 줄 수 있습니다.

https://x.com/fly51fly/status/2013004252159885389

#simmerge #modelmerging #mlresearch #cohere

fly51fly (@fly51fly) on X

[LG] SimMerge: Learning to Select Merge Operators from Similarity Signals O Bolton, Aakanksha, A Ahmadian, S Hooker... [Cohere & Google] (2026) https://t.co/lbmNeeHiwO

X (formerly Twitter)