DeepSeek veröffentlicht die neuen Modelle V4-Pro und V4-Flash mit einem Kontextfenster von einer Million Token.
Durch den Einsatz von Compressed Sparse Attention und Heavily Compressed Attention sinkt der Rechenbedarf bei langen Eingaben deutlich. V4-Pro aktiviert 49 Milliarden Parameter pro Token. Das Training erfolgte erfolgreich auf Huawei Ascend NPUs.
#DeepSeek #KI #MoE #OpenWeights #News
https://www.all-ai.de/news/news26top/deepseek-4-test
