Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Самый просто способ запустить локальную LLM - это установить ollama или LM Studio. Это быстро и просто, но вы теряете и в скорости, и в качестве. Почему UD_Q4_K_XL лучше при том же размере, почему квант Q3 может быть медленнее чем Q4. Хорошая ли идея взять REAP для вырезания ненужных экспертов из MoE. Кто быстрее, Linux или Windows. В общем как выжать больше из локальных LLM на домашнем железе.

https://habr.com/ru/articles/1025132/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1025132

#ik_llama #llamacpp #qwen36 #qwen #локальные_нейросети #cmoe #llm #агенты #gemma4 #gemma

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Самый просто способ запустить локальную LLM - это установить ollama или LM Studio. Это быстро и просто, но вы теряете и в скорости, и в качестве. Почему UD_Q4_K_XL лучше при том же размере, почему...

Хабр

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Самый просто способ запустить локальную LLM - это установить ollama или LM Studio. Это быстро и просто, но вы теряете и в скорости, и в качестве. Почему UD_Q4_K_XL лучше при том же размере, почему квант Q3 может быть медленнее чем Q4. Хорошая ли идея взять REAP для вырезания ненужных экспертов из MoE. Кто быстрее, Linux или Windows. В общем как выжать больше из локальных LLM на домашнем железе.

https://habr.com/ru/articles/1025132/

#ik_llama #llamacpp #qwen36 #qwen #локальные_нейросети #cmoe #llm #агенты #gemma4 #gemma

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Самый просто способ запустить локальную LLM - это установить ollama или LM Studio. Это быстро и просто, но вы теряете и в скорости, и в качестве. Почему UD_Q4_K_XL лучше при том же размере, почему...

Хабр

Chạy ik_llama.cpp với tùy chọn `-sm graph` cho tốc độ xử lý nhanh hơn đáng kể khi tận dụng tối đa 2 GPU CUDA. Dữ liệu benchmark mới cho thấy GPUs hoạt động gần 100% công suất thay vì chỉ một phần như phương pháp mặc định. Ứng dụng hiệu quả trên mô hình GLM-4.6 với GGUF từ MistralAI.
#AI #GPU #LậpTrình #MistralAI #ik_llama #XửLýNgônNgữ #TốiƯuHoá #HọcMáy #LLM #ViệtNam #TechNews #MôHìnhAI

https://i.redd.it/wfqujhoh0f6g1.png

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы она обучалась в стандартных f16, её вес был бы 1400гб, а мы попробуем версию в 10 раз меньше. Запустим самый маленький 1.66-битный IQ1_S_R4 квант полноценной модели размером 130гб на игровом ПК, отдельно с 4090 и 4060ti. Загрузим туда очень-очень много контекста и проверим, такой квант всё ещё способен давать разумные ответы или нет.

https://habr.com/ru/articles/921540/

#llamacpp #ik_llama #deepseek #локальные_нейросети #deepseek_r1 #deepseek_v3

Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы...

Хабр

Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы она обучалась в стандартных f16, её вес был бы 1400гб, а мы попробуем версию в 10 раз меньше. Запустим самый маленький 1.66-битный IQ1_S_R4 квант полноценной модели размером 130гб на игровом ПК, отдельно с 4090 и 4060ti. Загрузим туда очень-очень много контекста и проверим, такой квант всё ещё способен давать разумные ответы или нет.

https://habr.com/ru/articles/921540/

#llamacpp #ik_llama #deepseek #локальные_нейросети #deepseek_r1 #deepseek_v3

Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы...

Хабр