AshutoshShrivastava (@ai_for_success)

Gemini 3.1 Flash Lite와 Gemini 2.5 Flash의 비교 결과를 공유합니다. Gemini 3.1 Flash Lite가 훨씬 우수한 성능과 낮은 지연을 보이며, 평균 응답 시간은 2.5초 대 20초, 정답 점수는 84 대 69로 보고되었습니다.

https://x.com/ai_for_success/status/2028874541351793058

#gemini #gemini3 #llm #benchmark #aiperformance

AshutoshShrivastava (@ai_for_success) on X

Gemini 3.1 Flash Lite vs Gemini 2.5 Flash Gemini 3.1 Flash Lite delivers far better performance at a fraction of the cost compared to larger models. Average response time: 2.5 seconds vs 20 seconds. Score: 84 correct vs 69.

X (formerly Twitter)

Design Arena (@Designarena)

BREAKING: Qwen3.5 397B A17B와 Qwen3.5 Plus 02-15가 Design Arena 벤치마크에서 각각 전체 14위·20위를 기록했다고 발표했습니다. 이들은 GLM-4.7 Flash 및 Claude 3.7 Sonnet과 동일한 성능 밴드에 속하며, Alibaba_Qwen 팀의 성과를 축하하고 있습니다.

https://x.com/Designarena/status/2028635015308071021

#qwen #benchmark #designarena #alibaba

Design Arena (@Designarena) on X

BREAKING: Qwen3.5 397B A17B and Qwen3.5 Plus 02-15 have taken 14th and 20th place overall on Design Arena! They are in the same performance band as GLM-4.7 Flash and Claude 3.7 Sonnet Huge congrats to the @Alibaba_Qwen team for this achievement

X (formerly Twitter)

ARC Prize (@arcprize)

ARC-AGI-2 Semi Private 벤치마크의 국제 모델 성적 요약: Kimi K2.5(@Kimi_Moonshot) 12% ($0.28), Minimax M2.5(@MiniMax_AI) 5% ($0.17), GLM-5(@Zai_org) 5% ($0.27), Deepseek V3.2(@deepseek_ai) 4% ($0.12). 작성자는 이들 모델이 2025년 7월의 Frontier Labs 성능보다 낮다고 언급하고 있습니다. 여러 국제 모델의 비교·평가 결과입니다.

https://x.com/arcprize/status/2028563647212265565

#benchmark #arcagi #models #evaluation

ARC Prize (@arcprize) on X

International models on ARC-AGI-2 Semi Private - Kimi K2.5 (@Kimi_Moonshot): 12%, $0.28 - Minimax M2.5 (@MiniMax_AI): 5%, $0.17 - GLM-5 (@Zai_org): 5%, $0.27 - Deepseek V3.2 (@deepseek_ai): 4%, $0.12 These models score below July 2025 frontier labs

X (formerly Twitter)

The Humanoid Hub (@TheHumanoidHub)

AGI 벤치마크로서 '휴머노이드 로봇이 옷, 장갑, 신발을 입고 벗을 수 있는지'를 과제로 제시한 내용을 공유. 이는 물리적 상호작용 능력을 AGI 성능 지표로 삼으려는 평가 제안임.

https://x.com/TheHumanoidHub/status/2028549924003209337

#agi #benchmark #humanoids #robotics #evaluation

The Humanoid Hub (@TheHumanoidHub) on X

An AGI Benchmark: Humanoid robots capable of putting on and taking off their clothes, gloves, and shoes.

X (formerly Twitter)

Peter Gostev (@petergostev)

BullshitBench v2가 공개되었습니다. 이 벤치마크는 모델들이 대체로 성능 향상을 보이지 않는 드문 평가환경 중 하나이며(예외: Claude), 추론 능력도 큰 도움이 되지 않는다고 보고합니다. 이번 업데이트엔 도메인별 100개 신규문항(코딩 40, 의학 15, 법률 15, 금융 15, 물리 15)과 70개 이상의 모델 비교 등이 포함됩니다.

https://x.com/petergostev/status/2028492834693677377

#benchmark #llm #evaluation #reasoning

Peter Gostev (@petergostev) on X

BullshitBench v2 is out! It is one of the few benchmarks where models are generally not getting better (except Claude) and where reasoning isn't helping. What's new: 100 new questions, by domain (coding (40 Q's), medical (15), legal (15), finance (15), physics(15)), 70+ model

X (formerly Twitter)

金のニワトリ (@gosrum)

Qwen3.5의 ts-bench 결과(9B, 0.8B)를 공유. 9B 모델은 gpt-oss-120b에는 명확히 못 미치지만 해당 파라미터 규모에서 준수한 성능을 보임. 반면 0.8B 모델은 코딩 에이전트 용도로는 실용적이지 않음.

https://x.com/gosrum/status/2028484256759259580

#qwen #benchmark #tsbench #llm

金のニワトリ (@gosrum) on X

取り急ぎQwen3.5-9Bと0.8Bのts-bench結果を共有します ・9B gpt-oss-120bには明確に劣っている。ただしこのパラメータ量でこのスコアは優秀 ・0.8B さすがにコーディングエージェントでは使えない

X (formerly Twitter)

xman (@xuconz)

단일 요청·단일 사용자 환경에서 배칭 없이 Qwen3.5-35B-A3B 모델을 vLLM으로 RTX PRO 6000 96GB 한 장에 구동한 벤치마크입니다. 한 프롬프트 512 토큰 생성에 3.03초(약 169 tok/s) 성능을 기록했으며, 동시 부하에서 연속 배칭을 적용하면 총 처리량은 더 증가할 것이라는 설명입니다.

https://x.com/xuconz/status/2028375501426008508

#qwen #vllm #benchmark #rtxpro6000 #throughput

xman (@xuconz) on X

@ivanfioravanti @danieltvela @alexocheema @Prince_Canuma Single request, single user — no batching at all. One prompt, 512 completion tokens, 3.03s wall clock = ~169 tok/s raw generation speed. Running Qwen3.5-35B-A3B on a single RTX PRO 6000 96GB via vLLM. With continuous batching under concurrent load, aggregate throughput would go

X (formerly Twitter)

📰 GoとRustのざっくり性能比較 (👍 30)

🇬🇧 2026 performance comparison: Go vs Rust for CLI tools and JSON APIs. Practical benchmarks with build optimizations using LLM assistance.
🇰🇷 2026년 Go vs Rust 성능 비교. CLI 도구와 JSON API 대상 실용적 벤치마크. LLM 활용한 빌드 최적화 포함.

🔗 https://zenn.dev/ponyo877/articles/ae398e081464ff

#Go #Rust #Performance #Benchmark #Zenn

GoとRustのざっくり性能比較

Zenn

Ivan Fioravanti ᯅ (@ivanfioravanti)

exolabs의 최신 버전에서 벤치마크 테스트를 진행하며, /bench/chat/completions 엔드포인트가 호출 간 캐시를 비활성화하는 기능을 제공함을 발견했다고 보고. 캐시 비활성화로 일관된 성능 측정이 가능해 M3 Ultra 성능 테스트에 적합하다는 점을 강조.

https://x.com/ivanfioravanti/status/2028047012109734067

#exolabs #api #benchmark #cache #m3ultra

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Doing some benchmark testing on @exolabs latest version is great! I've found the /bench/chat/completions endpoint that disables cache between calls! Exactly what I need! Let's push these M3 Ultras!

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

EXO MLX Kimi K2.5의 컨텍스트 벤치마크를 두 대의 M3 Ultra(512GB)에서 실행한 결과를 공유. 속도는 엄청 빠르진 않지만 대용량 컨텍스트에서도 안정적인 생성 속도를 유지하며, 테스트는 캐시를 비활성화한 상태로 진행되었고 일반 사용 시에는 OpenCode와 C 조합으로 캐시 활용 시 더 좋은 성능이 나타날 수 있음을 언급.

https://x.com/ivanfioravanti/status/2028094304913092664

#exo #kimi #m3ultra #benchmark #contextwindow

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

EXO MLX Kimi K2.5 context benchmark running on two M3 Ultra 512GB. Not bad! It's not so fast, but it keeps a good generation speed even with large contexts. Keep in mind cache is disabled in these tests, normal usage is quite good with OpenCode & C.

X (formerly Twitter)