金のニワトリ (@gosrum)
GLM-4.7-flash로 ts-bench를 돌리고 있는데 현재까지 어떤 태스크도 성공하지 못하고 있다고 보고합니다. 자주 사고처럼 '생각의 무한루프'에 빠져 멈추는 현상도 발생한다고 하며, 일단 한 번 전부 돌려보려는 중이라는 내용입니다.
金のニワトリ (@gosrum)
GLM-4.7-flash로 ts-bench를 돌리고 있는데 현재까지 어떤 태스크도 성공하지 못하고 있다고 보고합니다. 자주 사고처럼 '생각의 무한루프'에 빠져 멈추는 현상도 발생한다고 하며, 일단 한 번 전부 돌려보려는 중이라는 내용입니다.
Janek Mann (@janekm)
작성자는 논문/발표자의 벤치마크 결과를 이해하지 못하겠다며, 벤치마킹을 심하게 잘못했거나 공개된 모델에 버그가 있을 수 있다고 지적합니다. 또한 Z-Image-Turbo(두번째 이미지)가 본인 환경에서 더 나은 텍스트 출력을 보여준다고 언급해 출시된 모델의 성능/재현성 문제를 제기하고 있습니다.