金のニワトリ (@gosrum)
gpt-5.4-mini의 ts-bench 벤치마크 결과를 공유함. 만점이 보편화되어 비교가 어려운 상황이지만, 적어도 gpt-5-mini(10위)보다 상당히 성능이 높아진 것이 분명하다고 보고. 어제 평가한 glm-5-turbo 결과도 함께 추가했음.
https://x.com/gosrum/status/2034060610913382606
#gpt5.4 #gpt #glm5turbo #benchmark #tsbench

金のニワトリ (@gosrum) on X
gpt-5.4-miniのts-bench評価結果を取り急ぎ共有
満点が当たり前になってきたので比較が難しいが、少なくともgpt-5-mini(#10)よりもかなり性能が高くなっていることは確か
※ついでに昨日評価したglm-5-turboも追加
X (formerly Twitter)金のニワトリ (@gosrum)
GLM-5-Turbo의 ts-bench 벤치마크 결과를 공유한 내용. 약 10회 테스트에서 GLM-5보다 정확도는 약간 낮지만 실행 속도는 빨라진 것으로 보고되었고, Claude Code와 조합한 결과는 점수가 크게 낮아 해당 조합 결과는 제외되었다고 언급한다.
https://x.com/gosrum/status/2033550008533110937
#glm5turbo #glm5 #benchmark #tsbench

金のニワトリ (@gosrum) on X
GLM-5-Turboのts-bench結果を共有
※Claude Codeとの組み合わせたはかなりスコアが低かったので割愛
計10回ぐらいベンチマークを回したので遅くなってしまった。GLM-5より少しだけ性能が落ちてるけど、確かに速くなっている
X (formerly Twitter)金のニワトリ (@gosrum)
Claude Code와 Qwen3.5 계열(Qwen3.5-122B-A10B/27B/35B-A3B) 조합으로 ts-bench를 돌린 결과를 공유한 내용입니다. Claude Code와 조합해도 현실적인 속도로 동작하지만 스코어를 보면 로컬에서 Claude Code를 돌리려면 100B급 이상의 파라미터가 필요해 보인다는 소견을 남겼습니다.
https://x.com/gosrum/status/2031317423203451005
#claudecode #qwen #benchmarks #localllm #tsbench

金のニワトリ (@gosrum) on X
Claude Code + Qwen3.5-122B-A10B/27B/35B-A3Bで改めてts-benchを回した結果がこちら
【備忘メモ】
・Claude Codeと組み合わせた場合でも現実的な速度で動くようになったが、スコアを見るとやはりClaude CodeをローカルLLMで動かす場合は100B程度以上のパラメータは必要なのかも
X (formerly Twitter)金のニワトリ (@gosrum)
Qwen3.5의 ts-bench 결과(9B, 0.8B)를 공유. 9B 모델은 gpt-oss-120b에는 명확히 못 미치지만 해당 파라미터 규모에서 준수한 성능을 보임. 반면 0.8B 모델은 코딩 에이전트 용도로는 실용적이지 않음.
https://x.com/gosrum/status/2028484256759259580
#qwen #benchmark #tsbench #llm

金のニワトリ (@gosrum) on X
取り急ぎQwen3.5-9Bと0.8Bのts-bench結果を共有します
・9B
gpt-oss-120bには明確に劣っている。ただしこのパラメータ量でこのスコアは優秀
・0.8B
さすがにコーディングエージェントでは使えない
X (formerly Twitter)金のニワトリ (@gosrum)
GLM-5을 Claude Code와 opencode와 조합한 ts-bench 결과를 발표했습니다. 결론은 GLM-5가 opencode와 함께 사용할 때 더 좋은 성능을 보인다는 것. opencode는 처리 시간이 더 오래 걸리지만 끝까지 시도해 결과를 도출했고, Claude Code는 조기에 포기해 빠른 종료를 보였습니다.
https://x.com/gosrum/status/2021792048404476280
#glm5 #opencode #claudecode #tsbench #benchmark

金のニワトリ (@gosrum) on X
GLM-5 + Claude Code/opencodeと組み合わせたときのts-bench結果発表!
結論:GLM-5はopencodeと組み合わせた方が良さそう
opencodeの方が時間かかってますが、時間をかけてでも諦めずにやりきっているため。
※Claude Codeは早々に諦めたため速い
X (formerly Twitter)金のニワトリ (@gosrum)
새로운 스텔스 모델 'Aurora Alpha'의 ts-bench 결과가 공유되었습니다. 작성자는 채팅 실험에서 추론이 빠르게 느껴졌으나 무한 루프에 빠지기 쉬운 점을 관찰했다고 보고했습니다. 성능과 안정성 측면에서 추가 벤치마크가 필요해 보입니다.
https://x.com/gosrum/status/2021020545685565685
#aurora #stealthmodel #tsbench #benchmark

金のニワトリ (@gosrum) on X
新しいステルスモデル「Aurora Alpha」のts-bench結果
チャットでも少し試した印象は以下の通り
・推論が速い(tps自体はそんなに速くないのでthinkingしてない?)
・無限ループに陥りやすい
X (formerly Twitter)金のニワトリ (@gosrum)
Step-3.5-Flash 모델에 관심이 있어 ts-bench로 성능 벤치마크를 돌리고 있다는 간단한 언급입니다. 특정 LLM의 성능 검증을 위해 로컬/벤치마크 툴을 사용 중임을 알 수 있습니다.
https://x.com/gosrum/status/2018269364773081370
#step3.5flash #tsbench #benchmark #llm

金のニワトリ (@gosrum) on X
Step-3.5-Flashが気になったのでts-bench回してる
X (formerly Twitter)金のニワトリ (@gosrum)
GLM-4.7-flash로 ts-bench를 돌리고 있는데 현재까지 어떤 태스크도 성공하지 못하고 있다고 보고합니다. 자주 사고처럼 '생각의 무한루프'에 빠져 멈추는 현상도 발생한다고 하며, 일단 한 번 전부 돌려보려는 중이라는 내용입니다.
https://x.com/gosrum/status/2013450192755007774
#glm4.7flash #tsbench #llm #modelbug

金のニワトリ (@gosrum) on X
GLM-4.7-flashでts-benchを回しているけど、今の所一つもタスクが成功していない。。。
思考の無限ループに入って止まることもわりと多いが、とりあえず一通り回してみようかな
X (formerly Twitter)