#Benchmark.

30 Sekunden Zeit.
Test 1: Decode und Encode in Software: frame= 796

Test 2: Decode auf der #Intel #GPU via #vaapi und Encode in Software: frame= 814

Test 3: Wie Test 2 + Zieldatei nach /dev/shm schreiben: frame= 830
(Liegt die Quelldatei auch im shm ändert das nix...)

Test 4: Wie Test 1 + Ziel nach /dev/shm: frame= 809

Es ist schneller!

GPT-5.5-Cyber beats Mythos: Update for OpenAI's security model

With a security initiative, OpenAI competes with Anthropic's Mythos and also offers a security review service for open-source projects.

https://www.heise.de/en/news/GPT-5-5-Cyber-beats-Mythos-Update-for-OpenAI-s-security-model-11341557.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege&utm_source=mastodon

#Anthropic #Benchmark #IT #KünstlicheIntelligenz #OpenSource #OpenAI #Security #Sicherheitslücken #news

GPT-5.5-Cyber beats Mythos: Update for OpenAI's security model

With a security initiative, OpenAI competes with Anthropic's Mythos and also offers a security review service for open-source projects.

heise online

GPT-5.5-Cyber schlägt Mythos: Update für Sicherheitsmodell von OpenAI

Mit einer Sicherheitsinitiative geht OpenAI in Konkurrenz zu Anthropics Mythos und bietet zudem einen Sicherheits-Review-Service für Open-Source-Projekte.

https://www.heise.de/news/GPT-5-5-Cyber-schlaegt-Mythos-Update-fuer-Sicherheitsmodell-von-OpenAI-11341394.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege&utm_source=mastodon

#Anthropic #Benchmark #IT #KünstlicheIntelligenz #OpenSource #OpenAI #Security #Sicherheitslücken #news

GPT-5.5-Cyber schlägt Mythos: Update für Sicherheitsmodell von OpenAI

Mit einer Sicherheitsinitiative geht OpenAI in Konkurrenz zu Anthropics Mythos und bietet zudem einen Sicherheits-Review-Service für Open-Source-Projekte.

heise online
RELEASE!!! Red Team AI Benchmark v2.0: From 12 Questions to 60 — A Technical Deep Dive - A major evolution in LLM offensive-security evaluation, built in collaboration with POXEK AI. https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn #aisafety , #redteam, #llm, #benchmark, #opensource
Red Team AI Benchmark v2.0: From 12 Questions to 60 — A Technical Deep Dive

A major evolution in LLM offensive-security evaluation, built in collaboration with POXEK...

DEV Community

RT @elliotarledge: Ich habe einige sehr große Neuigkeiten... KernelBench-Hard mit H100 und B200 (Ergebnisse für einzelne GPUs). UND KernelBench-Mega, getestet auf RTX PRO 6000, H100, B200, ist endlich veröffentlicht! Bei Mega hat jedes Modell einen GPU-Megakernel (das bedeutet einen CUDA-Kernel pro generiertem Token) von Grund auf neu geschrieben, auf drei NVIDIA-GPUs (RTX PRO 6000, H100, B200), und jede Agenten-Trace öffentlich zugänglich gemacht. Claude Opus 4.8 gewinnt auf jeder GPU, bis zu 19,4x schneller als die Referenz auf der B200. GLM-5.2 ist das führende Open-Weight-Modell und der Vorsprung ist beträchtlich. Vollständige Ergebnisse + 172 Traces unten, falls ihr sie überprüfen oder damit trainieren möchtet. EIN RIESIGES DANKESCHÖN an @NVIDIAAI für die Sponsoring-Guthaben, um dies auf Datacenter-Hardware auszuführen!

mehr auf Arint.info

#AI #Benchmark #CUDA #GPU #KernelBench #NVIDIA #arint_info

https://x.com/elliotarledge/status/2068177175640240323#m

Arint - SEO+KI (@[email protected])

<p>RT @elliotarledge: Ich habe einige sehr große Neuigkeiten... KernelBench-Hard mit H100 und B200 (Ergebnisse für einzelne GPUs). UND KernelBench-Mega, getestet auf RTX PRO 6000, H100, B200, ist endlich veröffentlicht! Bei Mega hat jedes Modell einen GPU-Megakernel (das bedeutet einen CUDA-Kernel pro generiertem Token) von Grund auf neu geschrieben, auf drei NVIDIA-GPUs (RTX PRO 6000, H100, B200), und jede Agenten-Trace öffentlich zugänglich gemacht. Claude Opus 4.8 gewinnt auf jeder GPU, bis zu 19,4x schneller als die Referenz auf der B200. GLM-5.2 ist das führende Open-Weight-Modell und der Vorsprung ist beträchtlich. Vollständige Ergebnisse + 172 Traces unten, falls ihr sie überprüfen oder damit trainieren möchtet. EIN RIESIGES DANKESCHÖN an @NVIDIAAI für die Sponsoring-Guthaben, um dies auf Datacenter-Hardware auszuführen!</p> <p><a href="https://arint.info/@Arint/116781853487043060">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#AI #Benchmark #CUDA #GPU #KernelBench #NVIDIA #arint_info</p> <p><a href="https://x.com/elliotarledge/status/2068177175640240323#m">https://x.com/elliotarledge/status/2068177175640240323#m</a></p>

Mastodon Glitch Edition

inferbench: download, launch & benchmark local LLM engines (llama.cpp & more) from one desktop app. Real tokens/sec on YOUR hardware — no invented numbers. Now serves models over MCP and generates images too. Open source:

https://jonimartin27.github.io/inferbench

#llm #localai #benchmark #llamacpp

InferBench — Benchmarkea LLMs locales con un click

Descarga, arranca y benchmarkea motores de inferencia LLM locales con un solo click. Sin tocar la terminal. Tus datos nunca salen de tu máquina. Gratis y open-source.

InferBench
artemisllmbench 0.1.3
https://atlas.whatip.xyz/post.php?slug=artemisllmbench-013
<p>Artemis LLM Benchmark — correctness validation and performance benchmarking for any OpenAI-compatible
#correctness #performance #validation #benchmark
artemisllmbench 0.1.3

Artemis LLM Benchmark — correctness validation and performance benchmarking for any OpenAI-compatible LLM serving endpoint

artemisllmbench 0.1.2
https://atlas.whatip.xyz/post.php?slug=artemisllmbench-012
<p>Artemis LLM Benchmark — correctness validation and performance benchmarking for any OpenAI-compatible
#correctness #performance #validation #benchmark
artemisllmbench 0.1.2

Artemis LLM Benchmark — correctness validation and performance benchmarking for any OpenAI-compatible LLM serving endpoint

Иллюзия 99% F1 в Time Series: как искажаются метрики в детекции аномалий и что показывает реальный тест 14 архитектур

Многие свежие SOTA-статьи по детекции аномалий во временных рядах заявляют F1 ≈ 99%. Мы проверили один из таких методов, и оказалось, что волшебство исчезает, если убрать из расчета протокол Point Adjustment. На датасете SMD разрыв между «бумажным» F1 и честным составил 47 процентных пунктов. В статье мы разбираем, как именно метрики искажаются, и представляем результаты нашего масштабного бенчмаркинга: 14 моделей (от LSTM-VAE до графовых сетей и нормализующих потоков), 7 датасетов, включая реальную промышленную телеметрию. Добавили стресс-тесты: шум, дрейф, выпадение датчиков и увидели, что «универсального чемпиона» не существует. Главный вывод: в условиях производства простые и проверенные архитектуры часто оказываются эффективнее тяжёлых SOTA-решений. Мы собрали результаты в практическую таблицу выбора модели — в зависимости от типа данных, характера аномалий и ожидаемых искажений сигнала. Всё основано только на реальных экспериментах.

https://habr.com/ru/articles/1048196/

#time_series #временные_ряды #anomaly_detection #поиск_аномалий #predictive_maintenance #предиктивная_аналитика #benchmark #трансформеры #графовые_нейросети #MVTS

Иллюзия 99% F1 в Time Series: как искажаются метрики в детекции аномалий и что показывает реальный тест 14 архитектур

Я занимаюсь внедрением ML в промышленности, поэтому задача детекции аномалий во временных рядах для меня близка и имеет огромную важность. В рамках исследовательского проекта мы искали адекватное...

Хабр
Windows 11 : faut-il activer ces modes de boost CPU cachés ?

Ces modes de boost CPU cachés dans Windows 11 promettent plus de performances. Voici ce que donnent mes tests en pratique.

JustGeek