Bindu Reddy (@bindureddy)

OpenAI가 GPT-5.4 Mini와 Nano를 출시했다고 알리며, 두 모델이 빠르고 효율적이며 저렴하다고 평가합니다. 작성자는 소형 고속 모델의 부재로 고민했으나 이번 출시로 해결되었다고 언급하며 LiveBench에 곧 탑재될 예정이라고 밝혔습니다.

https://x.com/bindureddy/status/2033959551708672190

#openai #gpt5.4 #gptnano #gptmini #livebench

Bindu Reddy (@bindureddy) on X

When OpenAI delivers, it rocks your world 💃💃 GPT 5.4 Mini and Nano just dropped and they are mind blowing - Fast, performant and cheap I have been weeping about not having small, really fast model and now we have it. Will be on LiveBench shortly

X (formerly Twitter)

Dan McAteer (@daniel_mac8)

LiveBench에 따르면 GPT-5.4가 최고 AI 모델로 평가되었다고 알리는 트윗으로, 작성자는 이미 그 우위를 알고 있었다고 언급하며 GPT-5.4의 성능 우위 및 LiveBench의 모델 순위 결과를 강조하고 있습니다.

https://x.com/daniel_mac8/status/2031076659277766776

#gpt5.4 #livebench #llm #ai

Dan McAteer (@daniel_mac8) on X

GPT-5.4 is the top AI model according to LiveBench. KNEW IT. Didn't even need LiveBench to tell me that.

X (formerly Twitter)

Bindu Reddy (@bindureddy)

GPT 5.4이 막 공개되었고 '빛의 속도' 수준의 실행 속도를 강조합니다. 작성자는 Opus와 LiveBench 상에서의 성능 비교 결과를 기대하고 있다는 벤치마크·성능 중심의 반응을 보이고 있습니다.

https://x.com/bindureddy/status/2029624266216612345

#openai #gpt5.4 #opus #livebench

Bindu Reddy (@bindureddy) on X

Wow! GPT 5.4 Just Dropped! Execution At The Speed of Light Super anxious to see how it compares to Opus on LiveBench

X (formerly Twitter)

Bindu Reddy (@bindureddy)

GPT 5.4가 LiveBench 벤치마크에서 최고 성능을 기록할 예정이며 결과가 곧 공개될 것이라는 예고성 트윗입니다. 모델 성능 업데이트와 벤치마크 순위 변화에 대한 사전 알림으로 해석되며, LLM 성능 경쟁 관련 중요 신호로 볼 수 있습니다.

https://x.com/bindureddy/status/2029750282234773504

#gpt #gpt5.4 #benchmark #livebench #llm

Bindu Reddy (@bindureddy) on X

GPT 5.4 is set to top LiveBench - results coming soon 🎉

X (formerly Twitter)

Bindu Reddy (@bindureddy)

Gemini Pro 3.1이 LiveBench에서 거의 모든 리더보드를 큰 차이로 선도하고 있다는 보고입니다. 다만 숨겨진(보지 못한) 질문들에선 낮게 나와 벤치마크 최적화 의혹이 제기되며, 실제 일반화 성능에는 유의할 점이 있습니다.

https://x.com/bindureddy/status/2028577082801111161

#geminipro #livebench #benchmarking #llm

Bindu Reddy (@bindureddy) on X

Gemini Pro 3.1 IS ON TOP OF LIVEBENCH - BEATS EVER OTHER MODEL BY A LOT While it's on top of almost all leaderboards, we do find that it scores lower on hidden or "unseen" questions This implies that the model is benchmark optimized. However even on our internal rankings it

X (formerly Twitter)

Bindu Reddy (@bindureddy)

Claude Sonnet 4.6이 출시되었으며 비용 대비 전체 성능에서 최고가 될 가능성이 크다는 발표입니다. 또한 LiveBench 벤치마크 결과가 곧 공개될 예정이라고 예고해 실제 성능 검증이 곧 이루어질 것임을 알립니다.

https://x.com/bindureddy/status/2023824564892168510

#claude #sonnet #llm #benchmarking #livebench

Bindu Reddy (@bindureddy) on X

Claude Sonnet 4.6 Just Dropped.... It's has a good shot of being the best overall model in terms of cost LiveBench coming shortly

X (formerly Twitter)

Bindu Reddy (@bindureddy)

GLM5 공개를 알리는 트윗입니다. GLM5 출시를 축하하며 Kimi K2.5와의 오픈소스 경쟁을 언급했고, 같은 날 LiveBench와 ChatLLM 관련 라이브(데모/토론)가 예정되어 있음을 알렸습니다.

https://x.com/bindureddy/status/2021658154401247313

#glm5 #opensource #kimik2.5 #livebench #chatllm

Bindu Reddy (@bindureddy) on X

GLM5 is here! Love the open source competition to Kimi K2.5 Anyways will be LiveBench and ChatLLM later today

X (formerly Twitter)

Bindu Reddy (@bindureddy)

Opus 4.5가 개편된 LiveBench 리더보드에서 1위를 차지했습니다. LiveBench는 연휴 기간에 게임화를 방지하기 위해 재구성되었고, Opus 4.5가 최상위를 기록했으며 Codex와 Gemini 3가 근접한 성능을 보였습니다. 오픈 웨이트 모델 부문에서는 Kimi K2가 최고 자리에 올랐다는 내용으로, 실세계 LLM 성능을 반영하는 벤치마크의 업데이트 결과를 알립니다.

https://x.com/bindureddy/status/2007938526453928019

#livebench #opus #llm #benchmark

Bindu Reddy (@bindureddy) on X

Opus 4.5 Tops The Re-Vamped LiveBench Leaderboard, Which Reflects Real World LLM Performance Over the holidays, we re-vamped the LiveBench benchmark to prevent gaming. Opus 4.5 tops the new benchmark with Codex and Gemini 3 hot on its heels. Kimi K2 tops the open-weight models,

X (formerly Twitter)

GPT-5.2 đã xuất hiện trên bảng xếp hạng Livebench. Tài khoản Reddit đăng tải thông tin cho thấy phiên bản này đạt hiệu suất cao trong các bài kiểm tra AI. #AI #GPT52 #Livebench #Côngnghệ #Trítuệnhântạo

https://www.reddit.com/r/singularity/comments/1pkdyrz/gpt52_makes_it_onto_livebench/

livebench.ai là nền tảng mới chuyên đánh giá và so sánh các mô hình AI mã nguồn mở. Cộng đồng đang bàn luận sôi nổi về bảng xếp hạng này, đặc biệt là so sánh Qwen 3 Next với GPT-OSS. Bạn nghĩ sao về thứ tự các mô hình này?
#AI #OpenSource #Livebench #LLM #Qwen #GPTOSS #Benchmark #TríTuệNhânTạo #MãNguồnMở #ĐánhGiáAI #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1peuh30/httpslivebenchai_open_weight_models_only/