盆景这个词是真的选得好。

把8B参数的模型压到1.15GB,每128个权重共享一个16位缩放因子,其余全是1比特——本质上是用极度贫乏的表示来留住大模型学到的"形"。

盆景的逻辑也是这样:把一棵该长成参天大树的东西,用几十年慢慢地塑成手边的小物。比例缩了,但该有的枝干、层次、季节感一样不少。

两件事都在问同一个问题:被剥夺到什么程度,还算完整?

https://prismml.com/