RT @Teknium: Wir präsentieren Mixture of Agents 2.0 in Hermes Agent. Kombinieren Sie Modelle verschiedener Anbieter zu einer eigenen Mischung. Greifen Sie auf Ihre Voreinstellungen zu, als handele es sich um ein normales Modell in Hermes. Unsere bevorstehende HermesBench-Benchmark zeigt große Verbesserungen gegenüber Opus und GPT-5.5, wobei MoA Opus und GPT gemeinsam nutzt. Nous Research (@NousResearch) Die leistungsstärksten Modelle sind gesperrt, und der Zugang wird nur einer ausgewählten Gruppe gewährt. Hermes Agent stellt MoA-Voreinstellungen nun als virtuelle Modelle bereit und bietet Ihnen Fähigkeiten jenseits der öffentlich verfügbaren Front-End-Modelle: 8 % höher als Opus 4.8 und 11 % höher als GPT 5.5 in unserer kommenden Benchmark. Video — https://nitter.net/NousResearch/status/2070610321278988385#m

mehr auf Arint.info

#AI #Benchmark #HermesAgent #MachineLearning #MixtureOfAgents #NousResearch #arint_info

https://x.com/Teknium/status/2070615003674366277#m

🚨 NEWS: Alibaba addestra modelli AI a prevedere gli ambienti invece che agire e supera sette benchmark

Ecco i punti chiave in breve:
💡 Il team Qwen di Alibaba ha rilasciato Qwen-AgentWorld, due modelli di intelligenza artificiale che non imparano a compiere azioni ma a predire cosa restituirà l'ambiente circostant...

🚀 LINK: https://meteoraweb.com/news/alibaba-addestra-modelli-ai-a-prevedere-gli-ambienti-invece-che-agire-e-supera-sette-benchmark?utm_source=mastodon&utm_medium=social&utm_campaign=auto_share

#agentiAi #benchmark #intelligenzaArtificiale #alibaba #qwen

Qué interesante el comando hyperfine... no lo conocía, en general usaba el comando "time" para medir el tiempo de respuesta de un proceso por terminal... habrá que probarlo y ver qué otras opciones tiene!

¿Ya conocían hyperfine? ¿Lo han usado?

Comenten así aprendemos todos! 💬

#gnu #linux #hyperfine #time #benchmark

Understanding documents instead of just reading: Mistral OCR 4 is here

Mistral AI has introduced OCR 4. The model not only reads text but also structures content for enterprise search and RAG pipelines.

https://www.heise.de/en/news/Understanding-documents-instead-of-just-reading-Mistral-OCR-4-is-here-11343515.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege&utm_source=mastodon

#Benchmark #IT #KünstlicheIntelligenz #OCR #Spracherkennung #news

Understanding documents instead of just reading: Mistral OCR 4 is here

Mistral AI has introduced OCR 4. The model not only reads text but also structures content for enterprise search and RAG pipelines.

heise online

Dokumente verstehen statt nur lesen: Mistral OCR 4 ist da

Mistral AI hat OCR 4 vorgestellt. Das Modell liest nicht nur Text aus, sondern strukturiert Inhalte für Enterprise Search und RAG-Pipelines.

https://www.heise.de/news/Dokumente-verstehen-statt-nur-lesen-Mistral-OCR-4-ist-da-11343027.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege&utm_source=mastodon

#Benchmark #IT #KünstlicheIntelligenz #OCR #Spracherkennung #news

Mistral OCR 4: Dokumentenanalyse für 170 Sprachen

Mistral AI hat OCR 4 vorgestellt. Das Modell liest nicht nur Text aus, sondern strukturiert Inhalte für Enterprise Search und RAG-Pipelines.

heise online

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Два месяца своих сессий с ИИ скормил скрипту и собрал бенчмарк под СВОЮ работу — не под чужой лидерборд. Результат: тройка «лучших открытых моделей» сжалась в ничью, а в практике победила модель в 37 раз дешевле — потому что отвечает мгновенно, а 744B-гигант думает 22 секунды до первого слова. Важным оказался не балл, а телеметрия, которую балл прячет.

https://habr.com/ru/articles/1051296/

#llm #benchmark #llmasajudge #gemma #glm #selfhosting

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Собрал ИИ-бенчмарк под себя — и дорогие модели проиграли дешёвым Публичные лидерборды сходятся: сильнейшая открытая модель сейчас — GLM-5.2 на 744 миллиарда параметров. За ней — Kimi K2.6, DeepSeek...

Хабр

#Benchmark.

30 Sekunden Zeit.
Test 1: Decode und Encode in Software: frame= 796

Test 2: Decode auf der #Intel #GPU via #vaapi und Encode in Software: frame= 814

Test 3: Wie Test 2 + Zieldatei nach /dev/shm schreiben: frame= 830
(Liegt die Quelldatei auch im shm ändert das nix...)

Test 4: Wie Test 1 + Ziel nach /dev/shm: frame= 809

Es ist schneller!

GPT-5.5-Cyber beats Mythos: Update for OpenAI's security model

With a security initiative, OpenAI competes with Anthropic's Mythos and also offers a security review service for open-source projects.

https://www.heise.de/en/news/GPT-5-5-Cyber-beats-Mythos-Update-for-OpenAI-s-security-model-11341557.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege&utm_source=mastodon

#Anthropic #Benchmark #IT #KünstlicheIntelligenz #OpenSource #OpenAI #Security #Sicherheitslücken #news

GPT-5.5-Cyber beats Mythos: Update for OpenAI's security model

With a security initiative, OpenAI competes with Anthropic's Mythos and also offers a security review service for open-source projects.

heise online

GPT-5.5-Cyber schlägt Mythos: Update für Sicherheitsmodell von OpenAI

Mit einer Sicherheitsinitiative geht OpenAI in Konkurrenz zu Anthropics Mythos und bietet zudem einen Sicherheits-Review-Service für Open-Source-Projekte.

https://www.heise.de/news/GPT-5-5-Cyber-schlaegt-Mythos-Update-fuer-Sicherheitsmodell-von-OpenAI-11341394.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege&utm_source=mastodon

#Anthropic #Benchmark #IT #KünstlicheIntelligenz #OpenSource #OpenAI #Security #Sicherheitslücken #news

GPT-5.5-Cyber schlägt Mythos: Update für Sicherheitsmodell von OpenAI

Mit einer Sicherheitsinitiative geht OpenAI in Konkurrenz zu Anthropics Mythos und bietet zudem einen Sicherheits-Review-Service für Open-Source-Projekte.

heise online
RELEASE!!! Red Team AI Benchmark v2.0: From 12 Questions to 60 — A Technical Deep Dive - A major evolution in LLM offensive-security evaluation, built in collaboration with POXEK AI. https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn #aisafety , #redteam, #llm, #benchmark, #opensource
Red Team AI Benchmark v2.0: From 12 Questions to 60 — A Technical Deep Dive

A major evolution in LLM offensive-security evaluation, built in collaboration with POXEK...

DEV Community