看起來 Anima 這個 NVIDIA Cosmos-Predict2-2B 的衍生模型,可能會成為動漫類 DiT 模型的事實標準,並且取代 IllustriousXL 的地位。

至於提示詞,Anima 支援 danbooru tag,而使用自然語言的部份可以用 Grok 等線上服務做輔助,因為使用千問 Qwen3 0.6B LLM 模型做文字處理,甚至可以直接輸入中文。

圖片是使用 #CatTower 這個 Anima 的衍生模型產生的。
#stablediffusion
事實標準是說,如果你現在想要生成動畫圖片,會想到並使用什麼模型?2024下半年到現在是IllustriousXL,在那之前是PonyXL。畢竟SDXL使用的UNET架構不可能再有更好的改善,所以遲早會轉向 DiT 類的模型。而 NVIDIA Cosmos-Predict2-2B 這個模型參數量夠小,品質也不錯,自然成為首選。
@ryanhe 財力決定品質 XD
@zeroplex 也算是啦,其他公司都推大參數的模型,12B、14B之類的,只有NVIDIA推了2B的模型。

參數量大的話微調跟重新訓練都很耗時,也需要更貴的設備,而2B的模型只比SDXL 3.5B的模型小一些品質卻更好。所以社群也更有可能投注資源去做微調。
@ryanhe 市售顯示卡的記憶體最多 32 GB,大模型沒有企業用的那種根本沒辦法跑 QQ
@zeroplex 你可以買RTX Pro 6000,有96GB可以用😅