金のニワトリ (@gosrum)
RTX 5090 환경에서 Nemotron-Cascade-2-30B-A3B(Q4_K_M)의 llama-bench 결과를 공유했다. prefill은 약 13000 tps, decord는 약 285 tps로, 최신 GPU에서의 추론 성능을 보여주는 벤치마크 트윗이다.
金のニワトリ (@gosrum)
RTX 5090 환경에서 Nemotron-Cascade-2-30B-A3B(Q4_K_M)의 llama-bench 결과를 공유했다. prefill은 약 13000 tps, decord는 약 285 tps로, 최신 GPU에서의 추론 성능을 보여주는 벤치마크 트윗이다.
金のニワトリ (@gosrum)
vibe-local에서 Nemotron-Cascade-2-30B-A3B(Q4_K_M)을 ts-bench로 평가한 결과를 공유했다. 결론은 Qwen3.5가 더 강하다는 내용으로, 로컬 추론 모델 성능 비교와 벤치마크 결과를 다룬 기술적 ट्वीट이다.
AI Notkilleveryoneism Memes (@AISafetyMemes)
2개월 만에 10배 성능 향상이 있었다는 매우 간단한 성과 공유 트윗입니다. 구체적 대상은 없지만, AI 모델이나 시스템의 빠른 개선을 시사하는 내용으로 보입니다.
AmigaOS 4: AmigaDiskBench v2.6
AmigaDiskBench is a modern, high-performance disk benchmarking utility specifically designed for AmigaOS 4.1 Final Edition. It provides a robust, ReAction-based GUI to measure, analyze, and visualize the performance of various storage devices, filesystems, and hardware configurations. Version 2.6 provides comprehensive code quality audit, Amiga-style versioning, and distribution packaging.
Yet another #LLM #benchmark. 😉
EsoLang-Bench: Evaluating genuine reasoning in large language models via esoteric #programming languages https://esolang-bench.vercel.app/ #esolang #GenAI #AI
Сколько на самом деле стоит LOG_INFO(): benchmark библиотек логирования C++
Логирование есть практически в каждом C++ проекте. Почти любой сервис, демон или библиотека рано или поздно обрастает строками вроде LOG_INFO(...) или logger.debug(...) . Чаще всего библиотека выбирается по привычке или популярности — spdlog, quill, easylogging++ и т.п. При этом редко кто проверяет, какую цену приложение платит за логирование . В высоконагруженных системах логирование может выполняться:
https://habr.com/ru/articles/1012874/
#c++ #logging #benchmark #performance #spdlog #logme #quill #highperformance
Lossfunk (@lossfunk)
Esolang-Bench에 대한 질문에 답하며, 이 프로젝트는 호기심 기반으로 시작됐고 인간의 sample-efficiency와 OOD generalization을 이해하는 데 관심이 있었다고 설명한다. 모델이 zero/few-shot으로 얼마나 학습하는지 보는 벤치마크의 목적을 공유한다.
BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently answering them, created by Peter Gostev.
https://petergpt.github.io/bullshit-benchmark/viewer/index.v2.html
[Cursor, 자체 개발 AI 모델 Composer 2 출시 - 프런티어급 성능에 저렴한 가격
Cursor가 자체 개발한 코딩 특화 AI 모델 Composer 2를 출시했으며, 주요 벤치마크에서 큰 성능 향상을 보였습니다. 특히 Composer 1.5에서 2로 업그레이드되면서 성능이 크게 향상되었습니다. Composer 2는 저렴한 가격과 높은 성능으로 코딩 에이전트 시장에서 경쟁력을 갖추고 있습니다.