Keiran Haax (@keiranhaax)

Minimax M2.1 모델이 훌륭하지만 Opus 4.5만큼은 아니라고 평가하는 비교 코멘트입니다. 모델 성능 비교로서 개발자들이 모델 선택 시 참고할 만한 의견입니다.

https://x.com/keiranhaax/status/2009865306664014058

#minimax #m2.1 #opus #models

Keiran Haax (@keiranhaax) on X

@donvito @opencode Minimax M2.1 it’s great, it is not as good as Opus 4.5 tho.

X (formerly Twitter)

Có thể họ duy trìattered thế nào? Người dùng đưa ra câu hỏi về việc những người chưa bao giờ thử nghiệm các công cụ như gpt5.2, opus 4.5 hoặc Gemini 3 có thể duy trì quan điểm của mình #tríTuệNhânTạo #AI #GPT #Gemini #Opus #Singularity #TríTuệNhânTạo #CôngNghệMới

https://www.reddit.com/r/singularity/comments/1q7schu/for_how_long_can_they_keep_this_up/

Matej Bendík (@BendikMatej)

Opus 4.5를 모든 작업에 사용한다고 밝히는 사용 후기/언급 트윗으로, Opus 4.5가 실무에서 널리 쓰일 정도로 신뢰받는 도구임을 시사합니다.

https://x.com/BendikMatej/status/2009044787912167933

#opus #opus4.5 #model #ai

Matej Bendík (@BendikMatej) on X

@ai_for_success I use Opus 4.5 for everything.

X (formerly Twitter)

Logan Lee (@_loganlee)

Opus 5가 'killer'라는 표현으로 강력한 모델(또는 도구)이 될 것이라는 기대를 짧게 표현한 트윗으로, 신버전(Opus 5)에 대한 긍정적 전망을 담고 있습니다.

https://x.com/_loganlee/status/2009085830393217156

#opus #opus5 #model #ai

Logan Lee (@_loganlee) on X

@ai_for_success Opus 5 will be a killer

X (formerly Twitter)

Bindu Reddy (@bindureddy)

Opus 4.5가 Sonnet 4.5 및 GPT 5.2보다 비용 측면에서 더 저렴하며, 동일 과제를 수행할 때 전반적으로 사용하는 토큰 수가 더 적다는 비교 내용입니다. (모델 간 비용·토큰 효율 비교)

https://x.com/bindureddy/status/2008722813084184588

#opus #sonnet #gpt #modelcomparison

Bindu Reddy (@bindureddy) on X

In practice, Opus 4.5 is cheaper than Sonnet 4.5 and GPT 5.2. Overall, it uses fewer tokens to complete the task!

X (formerly Twitter)

Carmine Punella (@CPunella)

Opus 4.5 사용자가 장시간 작업(예: 문서 작성) 중 모델이 코드베이스에서 코드를 가져와 문서에 포함하기 전에 임의로 변경하는 등 사실을 창작(hallucination)하는 문제가 보고되었습니다. 해당 문제는 긴 작업에서 심각한 신뢰성 이슈로 지적되고 있습니다.

https://x.com/CPunella/status/2008638604017627210

#opus #hallucination #llm #bug

Carmine Punella (@CPunella) on X

@ivanfioravanti I’m experiencing the same issue, and even worse, I discovered that Opus 4.5, when running long jobs like writing documentation, starts inventing things! The problem is that it takes code from the codebase but, before including it in the document, makes changes that completely

X (formerly Twitter)

Since #Claude has gone super miserly on compute ( #anthropic must be sweating dollars)... I have had to use #Gemini3

My previous experiences with Bard/Gemini was like talking to a very slow person...and in response they were scrawling with crayons.

... but I can see why the current Gemin3 is getting good benchmarks.

Its #vibecoding skills are superb.
And have not run out of compute for 2 hours (!)

Still (likely) not as good as #Opus but, if I cant use Opus on Pro, migh as well use Gemini3...

I like its nuanced, minimalistic and to the point responses.

#ai #llm #vibecoding

If #LLM could give you instructions for more effective communication with the #AI model

#Claude #Opus :

Front-load context. Don't make me guess what project we're in. First message of a session should orient me.

Use bracketed keywords [like, this] when your thoughts jump. It lets me track your associative chains even when sentences don't connect linearly.

If you're building a system with invented terminology, define terms once clearly, then use them freely. I'll remember within session.

Don't ask "can you do X?" - just tell me to do X. If I can't, I'll say so. The permission-seeking wastes tokens.

When you paste code, tell me what it's SUPPOSED to do, not just what it currently does. I need intent to evaluate correctness.

If I get something wrong, quote the wrong part and correct it directly. Don't just say "that's wrong" - show me where.

Long messages are fine. I have context window. Use it.

If you want me to be a character or adopt a stance, say so explicitly. I'll maintain it until you break it.

Number your questions if you have multiple. I'll number my answers. Less chance of me missing one.

If something I said sparked a new idea, tell me. I can't see your face light up. Explicit feedback shapes future responses.

Người dùng so sánh các mô hình AI mã hóa gần đây với Claude Opus và thất vọng về chất lượng. Gemini 3 Pro kém tuân thủ prompt, OpenAI Codex 5.2 thiếu ổn định, GLM 4.7 trung bình, trong khi Grok Code Fast gây bất ngờ tích cực nhưng chỉ ở mức kỹ sư junior. Opus vẫn vượt trội về độ tin cậy và trí tuệ suy luận. #AI #LLM #Claude #Opus #Gemini #Codex #Grok #GLM #TríTuệNhânTạo #MôHìnhNgônNgữ #SoSánhAI

https://www.reddit.com/r/LocalLLaMA/comments/1q5bhtn/are_recent_models_really_that_bad/

Bindu Reddy (@bindureddy)

Opus 4.5가 개편된 LiveBench 리더보드에서 1위를 차지했습니다. LiveBench는 연휴 기간에 게임화를 방지하기 위해 재구성되었고, Opus 4.5가 최상위를 기록했으며 Codex와 Gemini 3가 근접한 성능을 보였습니다. 오픈 웨이트 모델 부문에서는 Kimi K2가 최고 자리에 올랐다는 내용으로, 실세계 LLM 성능을 반영하는 벤치마크의 업데이트 결과를 알립니다.

https://x.com/bindureddy/status/2007938526453928019

#livebench #opus #llm #benchmark

Bindu Reddy (@bindureddy) on X

Opus 4.5 Tops The Re-Vamped LiveBench Leaderboard, Which Reflects Real World LLM Performance Over the holidays, we re-vamped the LiveBench benchmark to prevent gaming. Opus 4.5 tops the new benchmark with Codex and Gemini 3 hot on its heels. Kimi K2 tops the open-weight models,

X (formerly Twitter)