Bindu Reddy (@bindureddy)

프런티어 AI 랩의 초대형 모델 ‘INSANELY-BIG’가 공개되지 않을 수 있다는 소식을 전하며, 대부분의 벤치마크에서 매우 높은 점수를 기록했다고 주장했다. 특히 SWE-Bench Pro 성능과 높은 추론 비용이 언급되어 차세대 대형 모델의 성능·비용 이슈를 보여준다.

https://x.com/bindureddy/status/2042001592027877708

#frontiermodel #benchmark #swebench #llm #ai

Bindu Reddy (@bindureddy) on X

INSANELY-BIG is a very large model from a frontier AI lab It scores 99 on literally EVERY SINGLE EVAL except SWE Bench Pro On SWE-BENCH pro it score 99.99 They say they won’t release it - cause it costs $100 per output 1M tokens and yeah - it’s too scary to drop to the

X (formerly Twitter)
#Samsung #Exynos2700 taucht erstmals im #Benchmark auf - und die frühen Werte des #GalaxyS27 Chips deuten auf eine deutliche Leistungssteigerung hin. #Smartphone #Leak #Exynos https://winfuture.de/news,157993.html?utm_source=Mastodon&utm_medium=ManualStatus&utm_campaign=SocialMedia
Exynos 2700: Samsungs neuer Top-Chip fürs Galaxy S27 im Benchmark

Samsungs kommendes Top-SoC für High-End-Smartphones ist erstmals in einer Benchmark-Datenbank aufgetaucht. Der sogenannte "Exynos 2700" wurde offenbar auf einem Entwickler-Board getestet und deutet schon jetzt an, dass Samsung bei seinem Prozessor für das Galaxy S27 einiges anders machen will.

WinFuture.de

金のニワトリ (@gosrum)

GLM-5.1의 ts-bench 벤치마크 결과를 공유했다. 다른 로컬 LLM도 만점을 받은 적은 있지만, GLM-5.1은 N=3 조건에서 일관되게 만점을 기록한 첫 로컬 LLM이라고 강조한다.

https://x.com/gosrum/status/2041709112661008859

#glm #benchmark #localllm #tsbench #llm

金のニワトリ (@gosrum) on X

GLM-5.1のベンチマーク結果(ts-bench) 他のローカルLLMでも満点取れることはあったけど、glm5.1は安定して満点を取れる最初のローカルLLM(N=3)

X (formerly Twitter)
ASUS Zenbook A16 – A $1699 Qualcomm Snapdragon X2 Elite Extreme CoPilot+ laptop

ASUS Zenbook A16 is one of the first Copilot+ PCs/laptops based on the Qualcomm Snapdragon X2 Elite Extreme 18-core Armv9 SoC and is now available for $1,699 on BestBuy or $1,999 on the ASUS website. The laptop features a 16-inch "3K" OLED with touchscreen, 48GB of RAM, a 1TB NVMe SSD, HDMI 2.1 video output, WiFi 7 and Bluetooth connectivity, and a few Thunderbolt and USB ports. ASUS Zenbook A16 (UX3607) specifications: SoC - Snapdragon X2 Elite Extreme (X2E-96-100) CPU - 18x Armv9 cores with 12 Prime cores up to 5.0 GHz (single/dual core) / 4.4 GHz (multicore), and 6 Efficiency cores up to 3.6 GHz GPU - Adreno X2-90 @ 1.85 GHz with support for DirectX 12.2 Ultimate, Vulkan 1.4, OpenCL 3.0 VPU Encode: HEVC, AVC: Dual 8K UHD @ 30 FPS, AV1: 8K UHD @ 15 FPS, UHD @ 60 FPS Decode: AV1, HEVC, AVC: Dual 8K @ 60

CNX Software - Embedded Systems News

Das anonym veröffentlichte KI-Videomodell HappyHorse-1.0 führt überraschend die Leaderboards von Artificial Analysis bei stummen Videos an.

Im Benchmark schlägt es das bisher dominierende Seedance 2.0. Allerdings fällt das Modell bei Generationen mit Audio sowie in der subjektiven visuellen Bewertung durch Tester wieder zurück. Herkunft und Entwickler bleiben spekulativ.

#HappyHorse #VideoAI #Benchmark #AI #News
https://www.all-ai.de/news/news26top/happyhorse-ki-bildgenerator-leak

Neuer KI-Bildgenerator überholt Seedance 2.0 im Benchmark

Ein anonymes System dominiert die aktuellen Leaderboards für stumme Videos. Die visuelle Qualität bleibt jedoch ein Streitthema.

All-AI.de

Google for Developers (@googledevs)

업데이트된 Android Bench 결과를 공개해, 다양한 모델의 성능을 비교하고 워크플로에 가장 적합한 모델을 찾을 수 있도록 했습니다. 최신 벤치마크 정보로 모델 선택에 참고할 수 있습니다.

https://x.com/googledevs/status/2041652239161262568

#android #benchmark #llm #evaluation #models

Google for Developers (@googledevs) on X

Explore the updated Android Bench results to find the best-performing models for your workflow.

X (formerly Twitter)

Deedy (@deedydas)

Claude Mythos가 AI 벤치마크를 모두 압도했다는 주장입니다. 구체적 근거는 없지만, 새로운 모델 성능이 매우 뛰어나다는 화제성 높은 언급으로 AI 모델 관련 주목 포인트입니다.

https://x.com/deedydas/status/2041605983659860115

#claude #benchmark #llm #ai #model

Deedy (@deedydas) on X

Claude Mythos just obliterated every single benchmark in AI. I can't believe what I'm reading.

X (formerly Twitter)

Github Awesome (@GithubAwesome)

Milla Jovovich가 AI 메모리 시스템 MemPalace를 오픈소스로 공개했으며, 벤치마크에서도 높은 성능을 기록하고 있다. 이 시스템은 벡터 डेटाबेस 대신 고대 그리스의 기억법인 Method of Loci에서 영감을 받은 공간적 구조(Wings, Halls, Rooms)로 AI 메모리를 조직하는 혁신적 접근을 제시한다.

https://x.com/GithubAwesome/status/2041483795514208603

#opensource #aimemory #benchmark #methodofloci #llm

Github Awesome (@GithubAwesome) on X

Milla Jovovich, yes that Milla Jovovich, just open-sourced an AI memory system and it's topping the benchmarks. MemPalace organizes AI memory into spatial geometries inspired by the ancient Greek Method of Loci. Wings, Halls, and Rooms instead of a messy vector database. A custom

X (formerly Twitter)

金のニワトリ (@gosrum)

스마트폰에서 llama.cpp를 빌드하는 데 성공했으며, 이를 통해 모바일 환경에서도 벤치마크 평가를 수행할 수 있을 것으로 보입니다. 로컬 LLM 실행 도구의 모바일 빌드 가능성을 보여주는 흥미로운 사례입니다.

https://x.com/gosrum/status/2041349492994462119

#llamacpp #llm #mobile #opensource #benchmark

金のニワトリ (@gosrum) on X

スマホでllama.cppのビルドができた! これでベンチマーク評価もできそう

X (formerly Twitter)

Design Arena (@Designarena)

Audio Arena 리더보드가 업데이트되어 음성-음성(speech-to-speech) 모델 상위 3개를 공개했다. 1위는 Ultravox v0.7, 2위는 Gemini 2.5 Flash Audio, 3위는 Grok Realtime이며, 오픈소스 6개 멀티턴 벤치마크로 평가했다고 밝혔다.

https://x.com/Designarena/status/2041334891854565743

#audiomodels #benchmark #speechtospeech #opensource #leaderboard

Design Arena (@Designarena) on X

Audio Arena Leaderboard Update! Congrats to the top 3 speech-to-speech models: - #1 Ultravox v0.7 by @ultravox_dot_ai - #2 Gemini 2.5 Flash Audio by @GoogleDeepMind - #3 Grok Realtime by @xai We evaluated each model on our open source suite of 6 static multi-turn benchmarks

X (formerly Twitter)