Mastodawn

H@R0👨🏻‍💻Jun 5

網上見到有人在討論 LLM 的 “記憶” 然後自己“創作”一個定義，還要求別人一定要接受他的定義，我說LLM從來都沒有所謂的記憶，反正我上網找論文，他們都是假設有記憶這回事，也沒甚麼認受性高的結論，頂多就是觀察到的事件

Show thread

H@R0👨🏻‍💻Jun 5

我覺得啊，“記憶”這件事本身就很“緣”，如露亦如電，好難去定義，記憶實在太抽像了，雖然我們何以去研究它的因果，但我認為LLM始終是數學模型，不應該用人或者一般生命的形式去開發

Show thread

H@R0👨🏻‍💻Jun 5

因為數學上 #LLM 的context是無限的，最近研究的 #SparseAttention 解除了非線性attention的限制，所以今年開始llm應用的context可以真正達到無限長度，目前好像是兩層的attention，我估計27年或28年的attention可能會有三層甚至更多，至少會有一層專門做RAG，甚至乎可以在attention裏直接調用其他LLM

Show thread

H@R0👨🏻‍💻

我記得有見過類似 #MixtureOfAgents 已經能夠做到，大概是未有通用的實作方法吧，我猜要先有一套通用的embedding模型才能實現，因此我估計27年就可以見到相關的能力

Show thread

H@R0👨🏻‍💻Jun 5

我估計先會有attention裏調用工具，例如跑bash script，而輸出結果可以直接做embedding放在attention裏面，這一點應該實驗室裏一早就有，然後就會是幾個小模型一起共用attention

Show thread

H@R0👨🏻‍💻Jun 5

我相信可以這樣講 #LLM #AI 類似「一群」思想互通的「人」，而非單獨的個體