H@R0👨🏻‍💻

@quetalocatl
24 Followers
120 Following
1.4K Posts
普通的一個人
Githubhttps://github.com/cosmoswafer
新架構主要反映的是推理速度和硬件要求上,例如 Qwen 3.5 對記憶體的要求就大幅下降,最具代表性的就是 Qwen 3.5 27b,可以在24GB VRAM的顯卡上運行,context window佔用的記憶體也大幅減少。
#DeepSeek 則是不緩不急,直接換代,上新架構和優化訓練數據。
根據觀察,現在阿里開發 #Qwen 的策略是類似以前 Intel 的 tick-tock,例如 Qwen 3.5 是新架構, Qwen 3.6 是優化訓練數據。
很多人說中國的 LLM AI 落後,其實相比美國已經沒太多差距,"開源“的LLM目前是全方位超遠美國。你可以認為”開源“會比”閉源“落後,但長遠來講,因為”開源“的特性,所謂三個臭皮匠勝過一個諸葛亮,一定會追得上的。
#Qwen 3.6 27B 可以看到,現在LLM大模型的訓練已經很成熟,參數量少的模型主要是能夠輸出的內容較短,“知識”亦少一點。根本的原因是“壓縮”,因為參數量少“壓縮率”高,要控制失真低便只能縮短輸出的內容的“量”和“質”,量就是輸出內容的長度,質就是某些“知識”。
deepseek: add deepseek-v4-pro & deepseek-v4-flash by cppcoffee · Pull Request #54731 · zed-industries/zed

Release Notes: Added deepseek-v4-pro and deepseek-v4-flash models reference: https://api-docs.deepseek.com/

GitHub
根據經驗 DeepSeek V4 Pro 主要的場景應該是 Agent 多輪自主開發,即是現在很流行的 Hermes agent。假如是稍為傳統的 Copilot 那種開發工作,Flash應該就能勝任。 簡單來說 DeepSeek V4 Flash 主要用在在日常任務中 (Everyday task),而 Pro 模型是自主執行數小時的工作流才需要用。
可惜的是 DeepSeek V4 還未支持視覺,這點與 Qwen 3.6 在使用場景上有巨大的差別。

結果都加價了 😂
以前 #DeepSeek 只有一個模型,能力與其他 Gemini Pro 或 Claude Opus 同級,現在多了一個Flash的低配版DeepSeek,價錢和以前的差不多,但對標的是 Gemini Flash 或 Claude Sonnet,變相是加價了。現在它的定位相當微妙,Pro的價錢在Qwen Max和Plus之間,相信能力不下於Qwen 3.6 Plus。依然是極具性價比,而且DeepSeek v4 Flash價錢是冠絕全球的便宜。暫時沒開始測試但如果和宣傳的一樣,相信 DeepSeek v4 Flash 會有接近 Qwen 3.6 Plus的智力,而且遠高於 Gemini 3.1 Flash,有可能會有 Claude 4.7 Opus 的八成。相信在大多數場景下都不會感覺到有區別。

https://api-docs.deepseek.com/zh-cn/quick_start/pricing/

#DeepSeekV4

模型 & 价格 | DeepSeek API Docs

下表所列模型价格以“百万 tokens”为单位。Token 是模型用来表示自然语言文本的的最小单位,可以是一个词、一个数字或一个标点符号等。我们将根据模型输入和输出的总 token 数进行计量计费。

有時唔係做野做得唔好,而係做出黎件貨出唔出去老闆個門口

https://youtube.com/shorts/djjY6J8Z0og?si=eqYaHKOc-jb7FGD6

师傅把整个铁门组装焊接好了,老板疑惑:这要怎么运出去?

YouTube