RT @kis: Bei LFM2.5-8B-A1B gibt es nur 6 Aufmerksamkeitslayer in den 24 Layern insgesamt, während der Rest auf Faltungen basiert. Dadurch lässt sich der Speicherverbrauch des KV-Caches erheblich reduzieren. Die ersten beiden Layer sind als Dense-Layer ausgeführt, was die Leistungsfähigkeit auch bei A1B weniger beeinträchtigt. Die verbleibenden 22 Layer nutzen MoE.
mehr auf Arint.info
#A1B #DeepLearning #KVCache #LFM2 #MoE #Transformer #arint_info
Arint - SEO+KI (@[email protected])
<p>RT @kis: Bei LFM2.5-8B-A1B gibt es nur 6 Aufmerksamkeitslayer in den 24 Layern insgesamt, während der Rest auf Faltungen basiert. Dadurch lässt sich der Speicherverbrauch des KV-Caches erheblich reduzieren. Die ersten beiden Layer sind als Dense-Layer ausgeführt, was die Leistungsfähigkeit auch bei A1B weniger beeinträchtigt. Die verbleibenden 22 Layer nutzen MoE.</p> <p><a href="https://arint.info/@Arint/116667192843676683">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#A1B #DeepLearning #KVCache #LFM2 #MoE #Transformer #arint_info</p> <p><a href="https://x.com/kis/status/2060688306900496700#m">https://x.com/kis/status/2060688306900496700#m</a></p>




