AISatoshi (@AiXsatoshi)
gemma-4-26B 기반의 마지 모델을 제작했다는 내용이다. 얕은 층에서 base 모델의 attention을 섞어 지시 추종 성향을 약화시키는 방식이며, 사전 분석에서 IT 모델과 Base 모델의 expert 가중치가 거의 같다는 점을 바탕으로 Attention/Dense를 조정한 것으로 보인다. 오픈소스/모델 변형에 관심 있는 개발자에게 유의미하다.
AISatoshi (@AiXsatoshi)
gemma-4-26B 기반의 마지 모델을 제작했다는 내용이다. 얕은 층에서 base 모델의 attention을 섞어 지시 추종 성향을 약화시키는 방식이며, 사전 분석에서 IT 모델과 Base 모델의 expert 가중치가 거의 같다는 점을 바탕으로 Attention/Dense를 조정한 것으로 보인다. 오픈소스/모델 변형에 관심 있는 개발자에게 유의미하다.
fly51fly (@fly51fly)
논문 'SimMerge: Learning to Select Merge Operators from Similarity Signals'은 유사성 신호를 이용해 모델 병합에 사용할 merge 연산자를 학습적으로 선택하는 방법을 제안합니다. O. Bolton 등(Cohere·Google) 저자이며 arXiv에 공개되어 모델 병합과 파라미터 통합 관련 연구 및 MLOps 실무에 영향을 줄 수 있습니다.
Kollektive KI-Intelligenz – Evolutionäre Algorithmen können Sprachmodelle weiterentwickeln
#KünstlicheIntelligenz #artificialintelligence #KI #AI #FoundationModels #Evolution #ModelMerging #Sprachmodelle #EvolutionäreAlgorithmen