AISatoshi (@AiXsatoshi)

gemma-4-26B 기반의 마지 모델을 제작했다는 내용이다. 얕은 층에서 base 모델의 attention을 섞어 지시 추종 성향을 약화시키는 방식이며, 사전 분석에서 IT 모델과 Base 모델의 expert 가중치가 거의 같다는 점을 바탕으로 Attention/Dense를 조정한 것으로 보인다. 오픈소스/모델 변형에 관심 있는 개발자에게 유의미하다.

https://x.com/AiXsatoshi/status/2040763040589828481

#gemma #llm #opensource #modelmerging #ai

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

gemma-4-26Bのマージモデルを作成しました 浅い層でbaseモデルの注意を混ぜて指示追従学習効果を弱めたモデルとなっています 事前の解析で、ITモデルとBaseモデルのexpert部分の重みはほとんど同じでした そのため今回は、Attention/Dense

X (formerly Twitter)