Mastodawn

Một người dùng đã tự thiết kế một "SSM head" đơn giản, thay thế cơ chế attention truyền thống trong mô hình GPT. Cơ chế này sử dụng các "slot" để lưu trữ thông tin, lấy cảm hứng từ Mamba/RWKV. Mô hình GPT tích hợp đầu SSM này đã giải thành công phép cộng 24 chữ số chỉ trong 40.000 bước huấn luyện.