網上見到有人在討論 LLM 的 “記憶” 然後自己“創作”一個定義,還要求別人一定要接受他的定義,我說LLM從來都沒有所謂的記憶,反正我上網找論文,他們都是假設有記憶這回事,也沒甚麼認受性高的結論,頂多就是觀察到的事件
我覺得啊,“記憶”這件事本身就很“緣”,如露亦如電,好難去定義,記憶實在太抽像了,雖然我們何以去研究它的因果,但我認為LLM始終是數學模型,不應該用人或者一般生命的形式去開發
因為數學上 #LLM 的context是無限的,最近研究的 #SparseAttention 解除了非線性attention的限制,所以今年開始llm應用的context可以真正達到無限長度,目前好像是兩層的attention,我估計27年或28年的attention可能會有三層甚至更多,至少會有一層專門做RAG,甚至乎可以在attention裏直接調用其他LLM
我記得有見過類似 #MixtureOfAgents 已經能夠做到,大概是未有通用的實作方法吧,我猜要先有一套通用的embedding模型才能實現,因此我估計27年就可以見到相關的能力
我估計先會有attention裏調用工具,例如跑bash script,而輸出結果可以直接做embedding放在attention裏面,這一點應該實驗室裏一早就有,然後就會是幾個小模型一起共用attention
我相信可以這樣講 #LLM #AI 類似「一群」思想互通的「人」,而非單獨的個體