金のニワトリ (@gosrum)

GLM-4.7-flash로 ts-bench를 돌리고 있는데 현재까지 어떤 태스크도 성공하지 못하고 있다고 보고합니다. 자주 사고처럼 '생각의 무한루프'에 빠져 멈추는 현상도 발생한다고 하며, 일단 한 번 전부 돌려보려는 중이라는 내용입니다.

https://x.com/gosrum/status/2013450192755007774

#glm4.7flash #tsbench #llm #modelbug

金のニワトリ (@gosrum) on X

GLM-4.7-flashでts-benchを回しているけど、今の所一つもタスクが成功していない。。。 思考の無限ループに入って止まることもわりと多いが、とりあえず一通り回してみようかな

X (formerly Twitter)

Janek Mann (@janekm)

작성자는 논문/발표자의 벤치마크 결과를 이해하지 못하겠다며, 벤치마킹을 심하게 잘못했거나 공개된 모델에 버그가 있을 수 있다고 지적합니다. 또한 Z-Image-Turbo(두번째 이미지)가 본인 환경에서 더 나은 텍스트 출력을 보여준다고 언급해 출시된 모델의 성능/재현성 문제를 제기하고 있습니다.

https://x.com/janekm/status/2011415256506179735

#imagemodels #benchmarking #zimageturbo #modelbug

Janek Mann (@janekm) on X

@cedric_chee Yeah, I also don't understand their benchmark results... Either they messed up bad in their benchmarking or the released model has a bug. Even Z-Image-Turbo (2nd image) is giving me better text output 😅

X (formerly Twitter)