Mastodawn

@cauf я хз чем. 5060 на маленьком контексте на мелкой модели в x2 быстрее. Чем больше давать контекста\модель тем медленнее. А тут так не падает скорость. И на условной glm-4.7-flash:latest будет выдавать 67 т\с

Сейчас еще скачаю gpt-oss-120b попробую....

Show thread

Ambassador Tablicek 15h ago

@hardworm @cauf ему cpu offload не жмёт, туда сюда данные не гоняет, изначально в медленной памяти сидит модель, но хоть не прыгает туда сюда между ram/vram. Скорее всего разогнана оперативка чтобы медленность компенсировать. В проц зашили пару инструкций, чтобы перемножать матрицы и вуаля - инференс таки тащит. Условно, всё, что больше 20b с контекстом выше стандартного 4к токенов тут летает шустрее, чем у меня на rtx5060ti16g. И это я про кванты q4. А @hardworm теперь bf16 боярин, походу.

Show thread

Ambassador Tablicek

@hardworm @cauf кстати, как ты glm вообще переносишь, на английском шоль общаешься? Она ж на русском раговорить как индийский переех.