Guardrails statt Bauchgefühl – neu:
OpenAI kauft Promptfoo: Warum KI-Agenten-Sicherheit jetzt in den Enterprise-Modus geht
https://agentenlog.de/posts/2026-03-12-openai-promptfoo-codex-security
#Agentenlog #OpenAI #Promptfoo #CodexSecurity
OpenAI kauft Promptfoo: Warum KI-Agenten-Sicherheit jetzt in den Enterprise-Modus geht – Agentenlog

OpenAI übernimmt das Security-Startup Promptfoo – und startet zeitgleich Codex Security. Was bedeutet das für dich als KI-Agenten-Entwickler?

Agentenlog

OpenAI, AI 에이전트 보안 플랫폼 Promptfoo 인수, Frontier에 내장

OpenAI가 AI 에이전트 보안 스타트업 Promptfoo를 인수, 자동화 보안 테스트 기능을 Frontier 플랫폼에 직접 통합할 예정입니다.

https://aisparkup.com/posts/10014

OpenAI übernimmt das Red-Teaming-Startup Promptfoo.

Die Technik wandert in die Plattform Frontier, um autonome KI-Agenten in Netzwerken abzusichern. Bisherige Schwachstellen wie Prompt Injections lassen sich damit direkt automatisiert testen.

Die Open-Source-Version der Kommandozeile bleibt unter der aktuellen Lizenz frei zugänglich.

#OpenAI #Promptfoo #Cybersecurity
https://www.all-ai.de/news/news26/openai-ki-sicherheit-kauf

OpenAI kauft Sicherheits-Startup für autonome KI-Agenten

Mit der Übernahme von Promptfoo integriert OpenAI automatisierte Sicherheitstests direkt in seine neue Software-Plattform für Geschäftskunden.

All-AI.de

OpenAI (@OpenAI)

OpenAI가 Promptfoo를 인수한다고 발표했습니다. Promptfoo의 기술은 OpenAI Frontier의 에이전트 보안 테스트 및 평가 기능을 강화할 예정이며, Promptfoo는 현재 라이선스 하에서 오픈소스로 유지되고 기존 고객 지원과 서비스도 계속 제공된다고 밝혔습니다.

https://x.com/OpenAI/status/2031052793835106753

#openai #promptfoo #securitytesting #opensource #agents

OpenAI (@OpenAI) on X

We’re acquiring Promptfoo. Their technology will strengthen agentic security testing and evaluation capabilities in OpenAI Frontier. Promptfoo will remain open source under the current license, and we will continue to service and support current customers.

X (formerly Twitter)

OpenAI plans to acquire Promptfoo as AI agent security becomes a growing concern

https://fed.brid.gy/r/https://nerds.xyz/2026/03/openai-promptfoo/

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

RAG Testing: как не сломать retrieval

TL;DR: Шесть метрик RAGAS + Precision@K/Recall@K/MRR позволяют поймать деградацию RAG-системы до того, как пользователи заметят галлюцинации. В этой статье будет всё от pip install ragas до...

Хабр

[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

https://habr.com/ru/articles/855644/

#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse

Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также...

Хабр