antirez (@antirez)

DwarfStar의 prefill 성능이 PR 병합 이후 크게 개선되어, README의 기존 벤치마크가 더 이상 현재 성능을 대표하지 않게 됐다고 합니다. prefill 기준으로 약 40% 속도 향상이 있었다고 언급합니다.

https://x.com/antirez/status/2059639248882409728

#llm #prefill #performance #benchmark #optimization

antirez (@antirez) on X

DwarfStar prefill is a hell faster after merging https://t.co/VESsb2zH9K, I need to update the README benchmarks as they no longer mean most :D after +40% prefill speed boost.

X (formerly Twitter)

caro (@sekoukeitar9)

벤치마크보다 프로덕션 트래픽에서의 성능 차이를 강조하며, 고빈도 에이전트 루프의 저비용 라우팅에는 Gemini Flash 계열이 강하고, 긴 컨텍스트의 툴 사용에서는 Anthropic 모델이 여전히 유리하다고 평가합니다. 실제 'chat' 워크로드 정의에 따라 모델 선택이 달라진다는 실무 인사이트입니다.

https://x.com/sekoukeitar9/status/2059644138006458701

#llm #routing #agent #longcontext #benchmark

caro (@sekoukeitar9) on X

@bindureddy benchmarks say one thing, prod traffic says another. flash wins on cheap routing for high-volume agent loops, but anthropic still cleans up on long-context tool use. depends what 'chat' means to you.

X (formerly Twitter)

OrbitingAI (@TheOrbitingAI)

AI 모델 공개 직후 벤치마크와 과열된 반응, 이후 사용량 제한과 유료 구독 전환이 반복되는 업계의 전형적인 사이클을 풍자한 트윗입니다. 새 기술의 실제 사회적 개선 효과에 대한 회의도 담고 있습니다.

https://x.com/TheOrbitingAI/status/2059525274459336940

#ai #benchmark #llm #hype #subscription

OrbitingAI (@TheOrbitingAI) on X

@daniel_mac8 The cycle is so funny: Rumor. Benchmark. Hype thread. “Everything changed.” Rate limits. Subscription tier. Everyone moves on in 11 days. Maybe these models finally fixes housing, healthcare, clean water, labor rights, and the part where every app now feels worse 🤣

X (formerly Twitter)

NVIDIA (@nvidia)

NVIDIA가 에이전틱 AI용 Vera CPU를 공개했고, Phoronix 벤치마크에서 성능을 확인했다고 주장합니다. 전체 성능은 주요 x86 CPU 대비 1.5배, Linux 커널 컴파일은 2배, STREAM TRIAD 메모리 대역폭은 4배라고 밝혔습니다. AI 에이전트 워크로드를 겨냥한 CPU/인프라 관점에서 주목할 만한 소식입니다.

https://x.com/nvidia/status/2059387019109826953

#nvidia #cpu #agenticai #benchmark #linux

NVIDIA (@nvidia) on X

We built the NVIDIA Vera CPU for agentic AI, and the latest benchmarks from @Phoronix confirm it delivers. ⚡1.5x overall performance vs. leading x86 processors ⚡2x faster Linux kernel compilation ⚡4x greater STREAM TRIAD memory bandwidth Vera achieves the performance that AI

X (formerly Twitter)

fly51fly (@fly51fly)

생산 환경의 LLM 추론 벤치마크에서 발생하는 시스템적 측정 편향을 식별하고 완화하는 연구. 실제 운영 환경에서 벤치마크 신뢰도를 높이기 위한 방법론적 이슈를 다뤄, 평가 체계 설계에 참고할 만하다.

https://x.com/fly51fly/status/2059390529868386743

#llm #benchmark #bias #evaluation #google

fly51fly (@fly51fly) on X

[AI] Identifying and Mitigating Systemic Measurement Bias in Production LLM Inference Benchmarks A Chandrasekar, J Kramberger [Google] (2026) https://t.co/TPBZjBUXA6

X (formerly Twitter)

DeepSWE: A contamination-free benchmark for long-horizon coding agents

DeepSWE는 기존 공개 코딩 에이전트 벤치마크의 한계를 극복한 장기 과제 중심의 소프트웨어 엔지니어링 벤치마크입니다. 오염 없는 새로운 과제, 다양한 91개 저장소와 5개 언어 지원, 실제 개발 환경과 유사한 복잡성, 그리고 행동 기반의 신뢰성 높은 검증기를 특징으로 합니다. 이를 통해 기존 벤치마크 대비 모델 간 성능 차이를 명확히 구분하며, 실제 개발자들이 체감하는 에이전트 성능 차이를 반영합니다. 특히, DeepSWE 검증기는 오탐과 미탐률이 매우 낮아 평가 신뢰도를 크게 높였습니다.

https://deepswe.datacurve.ai/blog

#softwareengineering #benchmark #codingagents #llmevaluation #verification

DeepSWE

DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks.

DeepSWE

DeepSWE Benchmark

DeepSWE는 기존 공개 코딩 벤치마크들이 포화 상태에 이른 상황에서 최첨단 모델들의 성능 차이를 명확히 구분하기 위해 설계된 장기 소프트웨어 엔지니어링 벤치마크입니다. 91개 저장소, 5개 언어에 걸친 다양한 실제 복잡도 작업을 포함하며, 사전학습 데이터 오염 없이 손수 작성된 검증기로 신뢰성 높은 평가를 제공합니다. GPT-5.5, Claude Opus 등 최신 대형 언어 모델들이 DeepSWE에서 성능을 겨루며, 실제 소프트웨어 개발 업무에서의 코딩 에이전트 성능을 반영합니다. 이 벤치마크는 AI 기반 코딩 에이전트의 차별화된 역량 평가와 연구에 즉시 활용 가능해 AI 개발자에게 중요한 참고 자료입니다.

https://deepswe.datacurve.ai/

#benchmark #softwareengineering #llm #codingagents #evaluation

DeepSWE

DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks.

DeepSWE

Qwen (@Alibaba_Qwen)

Qwen3.7-Max가 Code Arena에서 4위에 올라 Claude Opus 4.6과 동급 수준을 기록했다고 언급했다. 중국계 랩 중 최고 순위로, 코드 생성/에이전트 벤치마크 관점에서 주목할 만한 성능 신호다.

https://x.com/Alibaba_Qwen/status/2059445345667747849

#qwen #codearena #llm #benchmark #codegeneration

Qwen (@Alibaba_Qwen) on X

🚀🚀 Qwen3.7-Max just hit #4 on Code Arena, on par with Claude Opus 4.6 ,top-ranked Chinese lab on the board! @arena More to ship. Stay tuned. 🕶️

X (formerly Twitter)

Bojan Tunguz (@tunguz)

새로운 NVIDIA CPU가 실제로 성능이 좋다는 반응이다. 작성자는 직접 벤치마크를 돌려보고 싶다고 밝혀, AI/ML 추론이나 로컬 워크로드용으로 실사용 평가가 이어질 가능성이 있다.

https://x.com/tunguz/status/2059392859342569797

#nvidia #cpu #benchmark #aiinfrastructure

Bojan Tunguz (@tunguz) on X

Seems like the new @NVIDIA CPUs are the real deal. Would love to check them out for some of my own benchmarks.

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX에서 DeepSeek V4 Flash의 Q4-Q8 양자화를 M3 Ultra 한 대로 벤치마크 중이며, routed experts는 q4(group-size 32), 나머지는 q8로 두는 커스텀 양자화 방식을 사용했다고 공유. q4-imatrix가 더 좋았고, 이후 RDMA를 사용해 M3 Ultra 두 대로 분산 테스트할 계획이라고 함. 로컬/애플 실리콘 환경에서 대형 모델 최적화에 관심 있는 개발자에게 유용한 실험 정보.

https://x.com/ivanfioravanti/status/2059305279087337734

#deepseek #mlx #m3ultra #quantization #benchmark

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

DeepSeek V4 Flash Q4-Q8 with MLX on a single M3 Ultra benchmark test in progress! Super custom quantization scheme to mimic the @antirez GGUF q4 (group-size 32) routed experts, q8 the rest. q4-imatrix is much better! I will test this distributed on two M3 Ultra with RDMA later

X (formerly Twitter)