金のニワトリ (@gosrum)
Gemma-4를 thinking 없이 실행해 본 결과 성능이 떨어졌고, Qwen3.5와 달리 ts-bench 점수가 낮아졌다고 합니다. 성능을 중시한다면 Gemma-4는 기본값인 thinking 모드로 사용하는 것이 좋다는 실전 평가입니다.
金のニワトリ (@gosrum)
Gemma-4를 thinking 없이 실행해 본 결과 성능이 떨어졌고, Qwen3.5와 달리 ts-bench 점수가 낮아졌다고 합니다. 성능을 중시한다면 Gemma-4는 기본값인 thinking 모드로 사용하는 것이 좋다는 실전 평가입니다.
New update for the slides of my talk "Run LLMs Locally": WebGPU
Now models can run completely inside the browser using Transformers.js, Vulkan and WebGPU (slower than llama.cpp, but already usable).
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #webgpu
don't expect llm generated code to be correct ↓
Qwen3.6-Plus: Towards Real World Agents
https://qwen.ai/blog?id=qwen3.6
#HackerNews #Qwen3.6Plus #RealWorldAgents #AI #Technology #Innovation
버려지던 신호를 학습으로, OpenClaw-RL이 AI 훈련을 바꾸는 방법
Princeton 연구팀의 OpenClaw-RL은 AI 에이전트가 대화·터미널·GUI 상호작용에서 발생하는 신호를 실시간 학습 데이터로 전환합니다. 8 스텝 만에 개인화 점수 4배 향상.New update for the slides of my talk "Run LLMs Locally":
Now including music generation with ACE-Step and OCR using LightOnOCR.
https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf
#ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai
Google Turbo Quant running Locally in Atomic Chat
MacBook Air M4 16 GB
Model: QWEN3.5-9B
Context window: 50000
Summarising 20000 words in just seconds..
You can do 3x larger context window, processing 3x faster than before!
https://x.com/atomic_chat_hq/status/2037650438024007760
#qwen3.59b #turboquant #atomicchat #macbookairm4 #contextwindow
Ivan Fioravanti ᯅ (@ivanfioravanti)
vllm-metal에서 PR 작업을 통해 M3 Ultra에서 최대 32K 컨텍스트로 Qwen3-0.6B 테스트를 실행한 내용이 공유됐다. mlx-lm이 여전히 더 낫다고 언급하며, TTFT는 적절한 지표가 아니고 개선 작업이 진행 중이라고 밝혔다. 히트맵과 Prefill/Decode 차트도 업데이트됐다.

I did my first PR on vllm-metal and I was able to run tests with up to 32K context on M3 Ultra with Qwen3-0.6B. mlx-lm is still the winner and TTFT is not the correct one there, improvement is WIP. Mega heatmap andPrefill/Decode charts updated. ctx rows leverages caching.