AISatoshi (@AiXsatoshi)
gemma-4-26B 기반의 마지 모델을 제작했다는 내용이다. 얕은 층에서 base 모델의 attention을 섞어 지시 추종 성향을 약화시키는 방식이며, 사전 분석에서 IT 모델과 Base 모델의 expert 가중치가 거의 같다는 점을 바탕으로 Attention/Dense를 조정한 것으로 보인다. 오픈소스/모델 변형에 관심 있는 개발자에게 유의미하다.
AISatoshi (@AiXsatoshi)
gemma-4-26B 기반의 마지 모델을 제작했다는 내용이다. 얕은 층에서 base 모델의 attention을 섞어 지시 추종 성향을 약화시키는 방식이며, 사전 분석에서 IT 모델과 Base 모델의 expert 가중치가 거의 같다는 점을 바탕으로 Attention/Dense를 조정한 것으로 보인다. 오픈소스/모델 변형에 관심 있는 개발자에게 유의미하다.