Как измеряют LLM: параметры, бенчмарки и тесты на коленке

В комментариях к моей предыдущей статье о тестировании трех флагманских LLM моделей были примерно такие мысли и вопросы:

https://habr.com/ru/companies/bothub/articles/1052350/

#эмбеддинг #llm #тест #MoE #LMArena #OpenRouter #GPQAD #Opus #Fable #веса

Как измеряют LLM: параметры, бенчмарки и тесты на коленке

В комментариях к моей предыдущей статье о тестировании трех флагманских LLM моделей были примерно такие мысли и вопросы: Я взял простую бесплатную LLM, запустил локально и она тоже справилась. А...

Хабр

🚀 How to Install and Run Hermes Agent on #Ubuntu #VPS (5 Minute Quick-Start Guide)
This article describes how to install and run Hermes Agent on Ubuntu VPS.

Overview
Hermes Agent is an open-source AI agent framework from Nous Research that can run continuously on a VPS with persistent memory, tool access, and messaging integrations. This guide covers ...
Continued 👉 https://blog.radwebhosting.com/run-hermes-agent-on-ubuntu-vps/?utm_source=mastodon&utm_medium=social&utm_campaign=mastodon.raddemo.host #hermesagent #selfhosting #selfhosted #opensource #anthropic #openrouter #nousportal #openai

Когда нейросети заменят живых продавцов? Тест 10 LLM на умение продавать для русского рынка

Нам всё чаще заказывают ИИ-ботов для продаж и квалификации. И каждый раз один и тот же вопрос: на каком движке его строить? Бенчмарков «кто умнее» — десятки. На умение продавать, да ещё по-русски, — ноль. Поэтому я собрал свой: одна нейросеть играет продавца, вторая — клиента, который принципиально не покупает с первого раза и ловит на вранье, третья судит по продажной рубрике. Враньё ради сделки штрафуется жёстче, чем провал сделки. Прогнал первую десятку — и тест выдал сенсацию: DeepSeek и GLM «обошли» эталонный Gemini, а одна модель получила 96 из 100 и S-tier. Красиво. Только я в это не поверил. Под более жёстким клиентом модель не может набрать БОЛЬШЕ баллов, чем раньше. А S-tier-чемпиона я открыл руками — и увидел, как бот восемь раз подряд скопировал собственный ответ. Внутри: устройство теста, рубрика с весами, реальные реплики персон, таблица 10 моделей, фрагменты диалогов (враньё, честность, зависший бот) и разбор, почему автосудье нужен живой надзор.

https://habr.com/ru/articles/1051498/

#LLM #продажи #бенчмарки #OpenRouter #чатботы #переговоры #NLP #DeepSeek #Gemini #методология

Когда нейросети заменят живых продавцов? Тест 10 LLM на умение продавать для русского рынка

Собрал бенчмарк, который меряет не «кто умнее», а «кто лучше продаёт» по-русски: тестируемая модель — продавец, жёсткий клиент — Opus, судья — тоже Opus. Прогнал первую десятку на живом B2B-диалоге....

Хабр

Hier erfährt man, wie kann man von #openclaw auf #hermes #hermesagent migriert.

https://hermes-agent.nousresearch.com/docs/guides/migrate-from-openclaw

Nutzt hier jemand Hermes Agent mit #Claude #Gemini #qwen #ollama #llmbase #openrouter usw. ? Wie? für welchen use case? #secondbrain #obsidian #pkm #lernOS

Migrate from OpenClaw | Hermes Agent

Complete guide to migrating your OpenClaw / Clawdbot setup to Hermes Agent — what gets migrated, how config maps, and what to check after.

#OpenRouter has model fusion, which this recreates in pi.

🚀 How to Install and Run Hermes Agent on #Ubuntu #VPS (5 Minute Quick-Start Guide)
This article describes how to install and run Hermes Agent on Ubuntu VPS.

Overview
Hermes Agent is an open-source AI agent framework from Nous Research that can run continuously on a VPS with persistent memory, tool access, and messaging integrations. This guide covers ...
Continued 👉 https://blog.radwebhosting.com/run-hermes-agent-on-ubuntu-vps/?utm_source=mastodon&utm_medium=social&utm_campaign=mastodon.social #selfhosting #openrouter #selfhosted #openai #anthropic #opensource #nousportal #hermesagent

RT @cyb3rops: Fusion API .. das neue heiße Ding OpenRouter (@OpenRouter) Wir stellen die Fusion API vor, das intelligenteste Compound-Modell auf dem Markt. Fusion erreicht Intelligenz auf Fable-Niveau zum halben Preis. So funktioniert es 👇 — https://nitter.net/OpenRouter/status/2065856853989270011#m

mehr auf Arint.info

#AI #CompoundModel #FusionAPI #MachineLearning #OpenRouter #arint_info

https://x.com/cyb3rops/status/2066079374135205993#m

🌗 OpenRouter:Fusion 模型——多模型協作與深度分析平臺
➤ 整合多模型智慧,實現深度的邏輯推理與資訊合成
https://openrouter.ai/openrouter/fusion
OpenRouter 推出的 Fusion 是一項創新功能,旨在解決單一 AI 模型在處理複雜任務時可能出現的侷限性。它透過啟動一個「專家模型小組」來同步分析用戶的提示詞(Prompt),並結合網路搜尋與資料抓取功能進行深度研究。最終,由一個「裁判模型」對所有結果進行綜整,找出共識、矛盾點、獨特見解及盲區,從而產出具備更高品質與可靠性的最終答案。這項工具特別適合需要高度準確、專家級批判性思考,或是錯誤成本極高的應用場景。
+ 這個工具對於研究報告或競品分析太有用了!單一模型常常會有幻覺,透過這種「集思廣益」的方式,準確度應該會大幅提升。
+ 概念很棒,但要注意成本控制。既然是加總所有模型的 API 費用,使用「Quality」預設組時,對於預算有限的開發者來說可能會有些負擔,建議先試試「Budget」模式。
#人工智慧 #大型語言模型 #API 工具 #OpenRouter
Fusion - API Pricing & Providers

Fusion turns your prompt into a small multi-model deliberation. $0 per million input tokens, $0 per million output tokens. 128,000 token context window.

🤖 Oh, #Openrouter #Fusion API, a marvel of modern tech that turns your humble prompt into a multi-model committee debate. Apparently, it takes a village of #AI to reach the same level of insight as a magic 8-ball! 🎱 Like a high-tech version of "telephone" where contradictions and blind spots are features, not bugs. 😂
https://openrouter.ai/openrouter/fusion #Technology #Multimodal #Debates #AI #Humor #HackerNews #ngated
Fusion - API Pricing & Providers

Fusion turns your prompt into a small multi-model deliberation. $0 per million input tokens, $0 per million output tokens. 128,000 token context window.

Fusion - API Pricing & Providers

Fusion turns your prompt into a small multi-model deliberation. $0 per million input tokens, $0 per million output tokens. 128,000 token context window.