Evaluating Geekbench 6
Evaluating Geekbench 6
Google for Developers (@googledevs)
Kaggle의 Benchmarks Resource Grant Program이 신청 마감 중간 시점에 도달했다. 선정된 프로젝트는 무료 컴퓨트 할당량, 인프라 지원, 기술 자문을 받아 AI 벤치마크 개발을 확장할 수 있다.

Building the next generation of AI benchmarks? 📊 We’re officially at the midpoint of the application window for the @Kaggle Benchmarks Resource Grant Program! Selected projects receive complimentary compute quota, infrastructure support, and technical guidance to scale
Dan McAteer (@daniel_mac8)
Anthropic 공동창업자 잭 클라크가 2028년까지 AI가 완전한 RSI(재귀적 자기개선)에 도달할 가능성을 60%로 본다고 언급했습니다. 여러 벤치마크에서 모델 성능이 급격히 향상되고 있다는 점을 근거로 들며, 향후 전개를 예측하기 매우 어려워질 수 있다고 봤습니다.

Jack Clark, Anthropic Co-Founder, now believes that AI will reach full RSI by 2028 with p(0.6). He believes it will lead to a nearly impossible to forecast future. Evidence to support his claim is the many benchmarks where models have exponentially improved. Does this imply
swyx (@swyx)
ChatGPT 앱을 지우고 Codex를 더 유용한 대체재로 본다는 의견이다. 특히 xAI의 Grok 4.30이 가격 대비 가장 높은 지능 성능을 보인다고 언급하며 모델 성능 비교가 화제다.

small milestone: uninstalled the chatgpt app. codex is strict superset now! found something cool - among frontier models, @xai @grok 4.30 is the most intelligence per dollar you can get, beating even open models like MiMo, Kimi, and DeepSeek. numbers pulled from
⚠️ The Black Myth: Wukong hack has again exposed a dev lie, Denuvo cuts FPS.
Hacker voices38 released a bypass that runs without disabling Secure Boot and is steadier than the hypervisor method. Benchmarks: 239 FPS vs 182 FPS, a 24% boost. Clear takeaway: heavy verification systems eat CPU cycles; the optimized launch still leaves Denuvo present but gives players a real edge. WILD 😳
lucas (@lucas_flatwhite)
AI 에이전트 시대를 살아가는 실행 원칙 10가지를 소개하며, 매일 쏟아지는 새로운 프레임워크·모델·벤치마크를 모두 따라갈 필요는 없다고 강조한다. 안드레 카파시의 ‘From Vibe Coding to Agentic Engineering’ 강연과 연결되는 메시지로, 에이전틱 엔지니어링 흐름을 짚는 내용이다.
https://x.com/lucas_flatwhite/status/2049884022168604703
#aiagents #frameworks #models #benchmarks #agenticengineering
A new benchmark for testing LLMs for deterministic outputs
https://interfaze.ai/blog/introducing-structured-output-benchmark
#HackerNews #LLMtesting #deterministicoutputs #benchmarks #AIresearch #machinelearning