H@R0👨🏻‍💻

@quetalocatl
24 Followers
120 Following
1.4K Posts
普通的一個人
Githubhttps://github.com/cosmoswafer
雖然qwen一直是比deepaeek更早發佈,但今次qwen 3.5和3.6的進步大驚艷,連價錢都大幅下降,實屬當今最強模型
現在 #DeepSeekV4 是預覽版,相信它的發佈計劃類似qwen,預覽版採用新架構和訓練方法,正式版會更新高質量的訓練資料。相信正式版的性能會有進一步提升。
試用了一天 #DeepSeekV4 開發 Deno TypeScript 應用,還有少許 Python 和 Bash/Maskfile 腳本,Pro的話我覺得不值得它的價錢,沒有比 #Qwen 3.6 plus 強太多,單純論智力兩者是差不多的。 Flash 的話性價比實在太高了,大多數情況下它沒有差太遠,尤其是配合 web fetch 和 Context7 MCP一起,它一樣會查找文檔修正錯誤。

咦,可以從reverse proxy裏取得client端真實的地址了,這樣子便能redirect到https的真實地址啦,之前做OAuth登入跳轉時沒辦法跳轉正確,現在無問題啦

https://deno.com/blog/fresh-2.3?ref=dailydev#reverse-proxy-support

Fresh 2.3: Zero JS by default, View Transitions, and Temporal support | Deno

Fresh 2.3 ships true zero-JS pages, View Transitions, CSP nonce support, IP filtering, and Temporal API support in islands.

Deno
五个让『大脑恢复清晰』的休息方式!

YouTube
新架構主要反映的是推理速度和硬件要求上,例如 Qwen 3.5 對記憶體的要求就大幅下降,最具代表性的就是 Qwen 3.5 27b,可以在24GB VRAM的顯卡上運行,context window佔用的記憶體也大幅減少。
#DeepSeek 則是不緩不急,直接換代,上新架構和優化訓練數據。
根據觀察,現在阿里開發 #Qwen 的策略是類似以前 Intel 的 tick-tock,例如 Qwen 3.5 是新架構, Qwen 3.6 是優化訓練數據。
很多人說中國的 LLM AI 落後,其實相比美國已經沒太多差距,"開源“的LLM目前是全方位超遠美國。你可以認為”開源“會比”閉源“落後,但長遠來講,因為”開源“的特性,所謂三個臭皮匠勝過一個諸葛亮,一定會追得上的。
#Qwen 3.6 27B 可以看到,現在LLM大模型的訓練已經很成熟,參數量少的模型主要是能夠輸出的內容較短,“知識”亦少一點。根本的原因是“壓縮”,因為參數量少“壓縮率”高,要控制失真低便只能縮短輸出的內容的“量”和“質”,量就是輸出內容的長度,質就是某些“知識”。