Mastodawn

DeepSeek veröffentlicht die neuen Modelle V4-Pro und V4-Flash mit einem Kontextfenster von einer Million Token.

Durch den Einsatz von Compressed Sparse Attention und Heavily Compressed Attention sinkt der Rechenbedarf bei langen Eingaben deutlich. V4-Pro aktiviert 49 Milliarden Parameter pro Token. Das Training erfolgte erfolgreich auf Huawei Ascend NPUs.

#DeepSeek #KI #MoE #OpenWeights #News
https://www.all-ai.de/news/news26top/deepseek-4-test

DeepSeek 4.0 mit neuem »DeepSeek-Moment«?

Mit der V4-Serie verringert das Unternehmen den Speicherbedarf massiv und unterstützt nun auch chinesische Huawei-Chips.

All-AI.de