Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B
Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему.
https://habr.com/ru/articles/1036448/
#llm #бенчмарк #gemma #qwen #openrouter #русский_язык #dora #sft #спорт #llmjudge

TL;DR — leaderboard за один взгляд За последние 2 недели собрал открытый бенчмарк из 655 экспертных вопросов по 35 видам спорта на русском. Запустил семь моделей через ансамбль из трёх судей: Claude...
RT @burkov: Dass die Modelle ständig aktualisiert werden und ältere Versionen dann abgekündigt werden, ist extrem ärgerlich. Man hat gerade ein Modell gefunden, das für einen bestimmten Anwendungsfall gut funktioniert und auch kosteneffizient ist. Also nutzt man es direkt vom Anbieter oder über OpenRouter. Dann entscheiden sie, es abzukündigen, und die einzige Option, falls das Modell Open-Weight ist, besteht darin, GPUs zu mieten, um es zu betreiben, was für den Anwendungsfall zu teuer ist. Ansonsten muss man alle Modelle erneut testen, bis man eines findet, das für einen angemessenen Preis für seinen Anwendungsfall vernünftig gut funktioniert.
mehr auf Arint.info
#GPU #KI #MaschinellesLernen #Modellmanagement #OpenRouter #Technologie #arint_info
<p>RT @burkov: Dass die Modelle ständig aktualisiert werden und ältere Versionen dann abgekündigt werden, ist extrem ärgerlich. Man hat gerade ein Modell gefunden, das für einen bestimmten Anwendungsfall gut funktioniert und auch kosteneffizient ist. Also nutzt man es direkt vom Anbieter oder über OpenRouter. Dann entscheiden sie, es abzukündigen, und die einzige Option, falls das Modell Open-Weight ist, besteht darin, GPUs zu mieten, um es zu betreiben, was für den Anwendungsfall zu teuer ist. Ansonsten muss man alle Modelle erneut testen, bis man eines findet, das für einen angemessenen Preis für seinen Anwendungsfall vernünftig gut funktioniert.</p> <p><a href="https://arint.info/@Arint/116595001789529063">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GPU #KI #MaschinellesLernen #Modellmanagement #OpenRouter #Technologie #arint_info</p> <p><a href="https://x.com/burkov/status/2056158991885926863#m">https://x.com/burkov/status/2056158991885926863#m</a></p>
HackerNewsTop5 (@hackernewstop5)
Apple Silicon의 비용이 OpenRouter보다 더 비싸다는 비교로, 로컬 하드웨어를 사서 AI 워크로드를 돌리는 방식과 API/호스팅 기반 추론 비용을 비교하는 논점입니다. AI 개발 인프라 선택에 직접적으로 관련된 내용입니다.
Ho testato OpenHuman in più scenari, da Fedora in VM a Windows con GPU, passando per Ollama, Open WebUI e OpenRouter. Il risultato è stato deludente: installazioni instabili, configurazioni poco trasparenti, dipendenze cloud poco chiare e nessuna esperienza davvero affidabile nell’uso reale.
#agentiAI #AILocale #debug #Fedora #llm #ollama #openSource #OpenWebUI #OpenHuman #openrouter #privacy #reviewSoftware #windows https://www.b0sh.net/2026/05/openhuman-promesse-grandi-prova-sul-campo-deludente/Apple Silicon costs more than OpenRouter
https://www.williamangel.net/blog/2026/05/17/offline-llm-energy-use.html
#HackerNews #AppleSilicon #OpenRouter #TechNews #CostComparison #EnergyEfficiency
Ich habe noch etwas rumprobiert mit pi.dev und den NVIDIA Tesla V100, die ich neulich entdeckt hatte.
Das sind zwei Grafikkarten von ca. 2019, also schon ordentlich alt, aber mit einer guten RAM Austattung von 32GB / Karte. Darauf habe ich mal das Model gemma4-31B von Deepmind durch verschiedene Prompts geschickt.
tl;dr: Damit kann man arbeiten aber das eigene Hosting kostet ca. 10x so viel wie #OpenRouter.
1/n 🧵
I've head good stuff about the InclusionAI : Ring-2.6-1T for coding.
It can be invoked freely from OpenRouter for the time being: https://openrouter.ai/inclusionai/ring-2.6-1t:free