Aratako (@Aratako_LM)
AWM 논문 기반 분석으로 RakutenAI 3.0이 DeepSeek V3에서 스크래치로 새로 학습된 모델인지 검토했으며, 결과적으로 추가 학습에 가까운 것으로 보인다는 내용이다. 또한 DeepSeek-V3와 RakutenAI-3.0, Meta-Llama-3-8B와 Tanuki-8B-dpo-v1.0의 아키텍처 및 학습 방식 비교가 포함된다.
📰 国産LLMは作れるのか? - RakutenAI 3.0の炎上から考える (👍 48)
🇬🇧 Examines RakutenAI 3.0 controversy revealing it was based on DeepSeek V3, questioning viability of domestic LLM development
🇰🇷 RakutenAI 3.0이 DeepSeek V3 기반임이 밝혀진 논란을 통해 국산 LLM 개발 가능성 고찰
📰 国産LLMは作れるのか? - RakutenAI 3.0の炎上から考える (👍 41)
🇬🇧 RakutenAI 3.0 controversy: 700B MoE model claimed as Japan's largest LLM, but config revealed DeepSeek V3 base. Can Japan build its own?
🇰🇷 RakutenAI 3.0 논란: 7000억 파라미터 일본 최대 LLM이라 주장했으나 DeepSeek V3 기반으로 드러남. 일본이 자체 LLM을 만들 수 있을까?
📰 国産LLMは作れるのか? - RakutenAI 3.0の炎上から考える (👍 30)
🇬🇧 RakutenAI 3.0 controversy reveals it's based on DeepSeek V3. Examines whether Japan can truly create domestic LLMs or just fine-tune existing ones.
🇰🇷 RakutenAI 3.0가 DeepSeek V3 기반으로 드러난 논란. 일본의 독자 LLM 개발 가능성을 고찰.
Aratako (@Aratako_LM)
AWM 논문 기반 분석으로 RakutenAI 3.0이 DeepSeek V3에서 스크래치로 새로 학습된 모델인지 검토했으며, 결과적으로 추가 학습에 가까운 것으로 보인다는 내용이다. 또한 DeepSeek-V3와 RakutenAI-3.0, Meta-Llama-3-8B와 Tanuki-8B-dpo-v1.0의 아키텍처 및 학습 방식 비교가 포함된다.
AISatoshi (@AiXsatoshi)
RakutenAI 3.0이 DeepSeek V3의 LoRA 기반처럼 보인다는 의견과 함께, 프론티어 모델이 점점 클로즈드화되는 상황에서 국산 모델의 분발이 필요하다고 언급한다. 모델 구조와 개발 역량에 대한 시사점이 있는 내용이다.
AISatoshi (@AiXsatoshi)
RakutenAI에 대한 소셜 코멘트: Deepseek 스타일 학습 노하우를 익히면 RakutenAI가 'kimi'와 유사한 아키텍처로 초기부터 LLM을 학습시켜 경쟁을 걸 수 있으며, 이번 결과가 만족스럽지 않아도 향후 일본 내 LLM 경쟁에서 우위를 점할 가능성이 있다는 전망. 일본어 지식 획득과 응용·일반화 강조.
ぱぷりか炒め (@WMjjRpISUEt2QZZ)
Rakuten이 공개한 'RakutenAI-3.0'의 gguf 포맷 변환판이 있다는 알림. imatrix로의 변환은 시간이 걸리므로 일단 생략했다는 내용으로, RakutenAI-3.0 모델의 gguf 배포 관련 소식임.