AshutoshShrivastava (@ai_for_success)
Gemini 3.1 Flash Lite와 Gemini 2.5 Flash의 비교 결과를 공유합니다. Gemini 3.1 Flash Lite가 훨씬 우수한 성능과 낮은 지연을 보이며, 평균 응답 시간은 2.5초 대 20초, 정답 점수는 84 대 69로 보고되었습니다.
AshutoshShrivastava (@ai_for_success)
Gemini 3.1 Flash Lite와 Gemini 2.5 Flash의 비교 결과를 공유합니다. Gemini 3.1 Flash Lite가 훨씬 우수한 성능과 낮은 지연을 보이며, 평균 응답 시간은 2.5초 대 20초, 정답 점수는 84 대 69로 보고되었습니다.
Design Arena (@Designarena)
BREAKING: Qwen3.5 397B A17B와 Qwen3.5 Plus 02-15가 Design Arena 벤치마크에서 각각 전체 14위·20위를 기록했다고 발표했습니다. 이들은 GLM-4.7 Flash 및 Claude 3.7 Sonnet과 동일한 성능 밴드에 속하며, Alibaba_Qwen 팀의 성과를 축하하고 있습니다.
ARC Prize (@arcprize)
ARC-AGI-2 Semi Private 벤치마크의 국제 모델 성적 요약: Kimi K2.5(@Kimi_Moonshot) 12% ($0.28), Minimax M2.5(@MiniMax_AI) 5% ($0.17), GLM-5(@Zai_org) 5% ($0.27), Deepseek V3.2(@deepseek_ai) 4% ($0.12). 작성자는 이들 모델이 2025년 7월의 Frontier Labs 성능보다 낮다고 언급하고 있습니다. 여러 국제 모델의 비교·평가 결과입니다.
The Humanoid Hub (@TheHumanoidHub)
AGI 벤치마크로서 '휴머노이드 로봇이 옷, 장갑, 신발을 입고 벗을 수 있는지'를 과제로 제시한 내용을 공유. 이는 물리적 상호작용 능력을 AGI 성능 지표로 삼으려는 평가 제안임.
Peter Gostev (@petergostev)
BullshitBench v2가 공개되었습니다. 이 벤치마크는 모델들이 대체로 성능 향상을 보이지 않는 드문 평가환경 중 하나이며(예외: Claude), 추론 능력도 큰 도움이 되지 않는다고 보고합니다. 이번 업데이트엔 도메인별 100개 신규문항(코딩 40, 의학 15, 법률 15, 금융 15, 물리 15)과 70개 이상의 모델 비교 등이 포함됩니다.

BullshitBench v2 is out! It is one of the few benchmarks where models are generally not getting better (except Claude) and where reasoning isn't helping. What's new: 100 new questions, by domain (coding (40 Q's), medical (15), legal (15), finance (15), physics(15)), 70+ model
金のニワトリ (@gosrum)
Qwen3.5의 ts-bench 결과(9B, 0.8B)를 공유. 9B 모델은 gpt-oss-120b에는 명확히 못 미치지만 해당 파라미터 규모에서 준수한 성능을 보임. 반면 0.8B 모델은 코딩 에이전트 용도로는 실용적이지 않음.
xman (@xuconz)
단일 요청·단일 사용자 환경에서 배칭 없이 Qwen3.5-35B-A3B 모델을 vLLM으로 RTX PRO 6000 96GB 한 장에 구동한 벤치마크입니다. 한 프롬프트 512 토큰 생성에 3.03초(약 169 tok/s) 성능을 기록했으며, 동시 부하에서 연속 배칭을 적용하면 총 처리량은 더 증가할 것이라는 설명입니다.

@ivanfioravanti @danieltvela @alexocheema @Prince_Canuma Single request, single user — no batching at all. One prompt, 512 completion tokens, 3.03s wall clock = ~169 tok/s raw generation speed. Running Qwen3.5-35B-A3B on a single RTX PRO 6000 96GB via vLLM. With continuous batching under concurrent load, aggregate throughput would go
📰 GoとRustのざっくり性能比較 (👍 30)
🇬🇧 2026 performance comparison: Go vs Rust for CLI tools and JSON APIs. Practical benchmarks with build optimizations using LLM assistance.
🇰🇷 2026년 Go vs Rust 성능 비교. CLI 도구와 JSON API 대상 실용적 벤치마크. LLM 활용한 빌드 최적화 포함.
Ivan Fioravanti ᯅ (@ivanfioravanti)
exolabs의 최신 버전에서 벤치마크 테스트를 진행하며, /bench/chat/completions 엔드포인트가 호출 간 캐시를 비활성화하는 기능을 제공함을 발견했다고 보고. 캐시 비활성화로 일관된 성능 측정이 가능해 M3 Ultra 성능 테스트에 적합하다는 점을 강조.
Ivan Fioravanti ᯅ (@ivanfioravanti)
EXO MLX Kimi K2.5의 컨텍스트 벤치마크를 두 대의 M3 Ultra(512GB)에서 실행한 결과를 공유. 속도는 엄청 빠르진 않지만 대용량 컨텍스트에서도 안정적인 생성 속도를 유지하며, 테스트는 캐시를 비활성화한 상태로 진행되었고 일반 사용 시에는 OpenCode와 C 조합으로 캐시 활용 시 더 좋은 성능이 나타날 수 있음을 언급.

EXO MLX Kimi K2.5 context benchmark running on two M3 Ultra 512GB. Not bad! It's not so fast, but it keeps a good generation speed even with large contexts. Keep in mind cache is disabled in these tests, normal usage is quite good with OpenCode & C.