RuneBench: Agent Benchmark on RuneScape Gameplay Tasks
RuneBench는 AI 코딩 에이전트들이 인기 MMORPG 게임인 RuneScape 내 다양한 게임 플레이 과제를 수행하는 능력을 평가하는 벤치마크이다. 에이전트들은 TypeScript SDK를 통해 게임 상태를 읽고 행동을 수행하며, 게임 위키에서 제공하는 정보를 활용해 전략을 수립한다. GPT-5.5, GPT-5.4, Gemini Flash 등 여러 최신 AI 모델들의 게임 내 스킬 경험치 획득 속도와 효율성을 비교 분석하여, AI의 다단계 계획 및 문제 해결 능력을 측정한다. 이 벤치마크는 AI 에이전트의 실제 환경 적응력과 복잡한 작업 수행 능력을 평가하는 새로운 응용 사례로 주목받고 있다.

https://maxbittker.github.io/runebench/

#aibenchmark #runescape #gamingai #typescriptsdk #gpt

runescape-bench: AI Agent Benchmark for RuneScape

runescape-bench evaluates AI coding agents on their ability to play RuneScape.

Can language models rebuild programs from scratch?
ProgramBench은 컴파일된 실행 파일과 문서만을 기반으로 원본 프로그램의 동작을 완전히 재구현하는 AI 에이전트를 평가하는 벤치마크이다. 200개의 다양한 난이도의 프로그램을 대상으로 하며, 에이전트는 소스 코드 없이 언어 선택, 아키텍처 설계, 코드 작성, 빌드 스크립트 생성까지 모두 수행해야 한다. 현재까지 AI 모델들의 완전한 재구현 성공률은 매우 낮으며, 이는 프로그램 설계 및 구현의 복잡성을 반영한다. ProgramBench는 인터넷 접근과 디컴파일 도구 사용을 제한하여 공정성을 확보하고, 실제 소프트웨어 설계 능력을 평가하는 데 중점을 둔다.

https://programbench.com

#programbench #softwaregeneration #aibenchmark #programsynthesis #codegeneration

ProgramBench

ProgramBench evaluates whether language models can rebuild programs from scratch.

"The State of Information Retrieval in 2026"

This is the best survey article I have seen in a long time in this niche.

The dominant retriever in 2026 is an 8-billion-parameter decoder-only language model fine-tuned on synthetic data, conditioned on natural-language instructions, often executing chain-of-thought reasoning before deciding what to retrieve.

https://medium.com/@mohankrishnagr08/the-state-of-information-retrieval-in-2026-192f125a5269

#research #informationRetrieval #RAG #LLM #SPLADE #AIbenchmark #AI

Tested Cogito V1 14B Qwen on my Linux server. 45 t/s, 9.7GB VRAM, and the same IDA self-awareness trick its 8B sibling pulled -- Run 2 deliberately stepped back to brute force because a beginner probably needed simpler first. Run 3 came back stronger with a nice candy analogy. That's DeepCogito's IDA training making a transformation of Qwen into something way better.

Read the full breakdown below.

#LocalAI #Ollama #HomeLabAI #LLM #AIBenchmark

https://goarcherdynamics.com/2026/04/06/aihome-cogito-v1-14b-review/?utm_source=mastodon&utm_medium=jetpack_social

AI@Home – Cogito V1 14B Review

Conditions & Context After doing a review of its little 8B brother a couple days ago, today we are looking at Cogito V1 14B model and I’m curious how it would fare in my very simple test.…

Archer Dynamics

Tested Cogito V1 8B on my Linux server. 83 t/s, 5.4GB VRAM, 131k context. The real story is where it deliberately wrote worse code because it decided a beginner needed simplicity over efficiency -- and admitted it! That's IDA self-reflection making a live call.
I guess a 5GB model with a conscience is worth more than a 70B model with none?

Read the full breakdown below.

#LocalAI #Ollama #HomeLabAI #LLM #AIBenchmark

https://goarcherdynamics.com/2026/04/03/aihome-cogito-v1-8b-review/?utm_source=mastodon&utm_medium=jetpack_social

AI@Home – Cogito V1 8B Review

Conditions & Context Today I’m looking at Cogito V1 8B model in Q4 K M quantization. This is Meta’s Llama 3.2 under the hood, but with Cogito’s proprietary self-improving IDA …

Archer Dynamics

OpenAI đã thực hiện đánh giá hiệu suất mô hình Kimi K2.5, thu hút sự chú ý từ cộng đồng AI. Dữ liệu benchmark cho thấy khả năng xử lý nhiệm vụ tiên tiến, đặc biệt trong suy luận và xử lý văn bản dài. Thông tin do người dùng d4m1n chia sẻ trên X, đang được thảo luận sôi nổi. #AI #OpenAI #KimiAI #TríTuệNhânTạo #AIbenchmark

https://www.reddit.com/r/singularity/comments/1qqba7r/openai_benchmarked_kimi_k25/

Meituan Longcat vừa ra mắt AMO Bench, bộ tiêu chuẩn đánh giá AI Toán học. Theo đó, Kimi k2 Thinking được xác định là AI tốt nhất về giải toán. AMO Bench gồm 50 bài toán mới, độ khó cấp IMO, chấm điểm tự động chính xác cao.

#AIBenchmark #MathAI #KimiK2Thinking #MeituanLongcat #TríTuệNhânTạo #ToánHọc

https://www.reddit.com/r/LocalLLaMA/comments/1p18lim/meituan_longcat_releases_amo_bench_kimi_k2/

xAI claims its new Grok 4.1 tops high‑difficulty benchmarks, showing stronger multi‑step reasoning than previous models. If you follow the race for the most capable LLMs, this update from Elon Musk’s lab is worth a look. How does it compare to other open‑source giants? Dive in for the details. #Grok41 #xAI #AIbenchmark #MultiStepReasoning

🔗 https://aidailypost.com/news/xai-says-grok-41-is-its-most-capable-model-beating-highdifficulty