Mastodawn

« Premier test minimaliste de Promptfoo avec le provider OpenCode SDK »

https://notes.sklein.xyz/2026-05-20_2315/zen/

#OpenCode #Harness #HarnessEngineering #PromptFoo

Guardrails statt Bauchgefühl – neu:
OpenAI kauft Promptfoo: Warum KI-Agenten-Sicherheit jetzt in den Enterprise-Modus geht
https://agentenlog.de/posts/2026-03-12-openai-promptfoo-codex-security
#Agentenlog #OpenAI #Promptfoo #CodexSecurity

OpenAI kauft Promptfoo: Warum KI-Agenten-Sicherheit jetzt in den Enterprise-Modus geht – Agentenlog

OpenAI übernimmt das Security-Startup Promptfoo – und startet zeitgleich Codex Security. Was bedeutet das für dich als KI-Agenten-Entwickler?

Agentenlog

AI Sparkup Mar 12

OpenAI, AI 에이전트 보안 플랫폼 Promptfoo 인수, Frontier에 내장

OpenAI가 AI 에이전트 보안 스타트업 Promptfoo를 인수, 자동화 보안 테스트 기능을 Frontier 플랫폼에 직접 통합할 예정입니다.

https://aisparkup.com/posts/10014

Winbuzzer Mar 10

https://winbuzzer.com/2026/03/10/openai-acquires-promptfoo-to-secure-its-ai-agents-xcxwbn/

OpenAI Acquires Promptfoo to Secure Its AI Agents

#AI #OpenAI #Promptfoo #AISecurity #AgenticAI #EnterpriseAI #Cybersecurity #AIAgents

Andreas Becker Mar 10

OpenAI übernimmt das Red-Teaming-Startup Promptfoo.

Die Technik wandert in die Plattform Frontier, um autonome KI-Agenten in Netzwerken abzusichern. Bisherige Schwachstellen wie Prompt Injections lassen sich damit direkt automatisiert testen.

Die Open-Source-Version der Kommandozeile bleibt unter der aktuellen Lizenz frei zugänglich.

#OpenAI #Promptfoo #Cybersecurity
https://www.all-ai.de/news/news26/openai-ki-sicherheit-kauf

OpenAI kauft Sicherheits-Startup für autonome KI-Agenten

Mit der Übernahme von Promptfoo integriert OpenAI automatisierte Sicherheitstests direkt in seine neue Software-Plattform für Geschäftskunden.

All-AI.de

NERDS.xyz – Real Tech News for Real Nerds [Unofficial]Mar 9

OpenAI plans to acquire Promptfoo as AI agent security becomes a growing concern

https://fed.brid.gy/r/https://nerds.xyz/2026/03/openai-promptfoo/

Habr Feb 20

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

RAG Testing: как не сломать retrieval

TL;DR: Шесть метрик RAGAS + Precision@K/Recall@K/MRR позволяют поймать деградацию RAG-системы до того, как пользователи заметят галлюцинации. В этой статье будет всё от pip install ragas до...

Хабр

Habr Nov 7, 2024

[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

https://habr.com/ru/articles/855644/

#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse

Оценка LLM: комплексные оценщики и фреймворки оценки

Хабр