分散成分分析で検証するLLM-as-a-Judgeの信頼性 — AIエージェントの一貫性実証に向けて
https://gihyo.jp/article/2026/03/aws-llmops-03?utm_source=feed

#gihyo #技術評論社 #gihyo_jp #AWS #バックエンド #LLM #データ分析 #AgentCore_Observability #LLM_as_a_Judge

分散成分分析で検証するLLM-as-a-Judgeの信頼性 — AIエージェントの一貫性実証に向けて | gihyo.jp

連載最終回(第三回)である本記事では、AIエージェントのGRC・ガバナンスに焦点を当てます。

gihyo.jp
LLM出力の精度90%→98%に。LLM-as-judgeとClaude Codeで自律チューニング - Qiita

はじめに GMOコネクトの永田です。 同じLLM、同じプロンプトで30件のIssueを2回分類・要約して、完全一致は66.7%でした。 LLMの出力精度を測ろうとして最初にぶつかったのがこの壁です。正解データ自体がLLMの生成物だと、文字列の完全一致では精度を測れません。...

Qiita

LLM Firewall: как вписать LLM в контур информационной безопасности

Привет, Хабр! Я Исмагилов Ильнур, разработчик команды Центра интеллектуальной автоматизации Innostage. В прошлой статье мы кратко рассмотрели угрозы ИИ‑сервисам и базовые меры защиты — этого достаточно, чтобы правильно стартовать внедрение ИИ в бизнес-процессы и заложить фундамент best‑практик для масштабирования. Во второй части мы смотрим на LLM Firewall как на рабочий элемент LLMSecOps: от требований приказа ФСТЭК до минимально достаточной архитектуры безопасной эксплуатации LLM в компании. Разбираем, какие защитные меры действительно имеют смысл, где проходит граница разумного контроля и как наращивать защиту по мере роста ИИ-систем, не уходя в overengineering. Материал будет полезен AI-инженерам, специалистам по информационной безопасности и руководителям ИТ и ИБ. Мы обсуждаем, как сохранить управляемость и контроль рисков при внедрении ИИ без лишних затрат, и показываем более глубокие техники выявления атак на LLM — от анализа поведенческой телеметрии до оценки угроз в реальном времени.

https://habr.com/ru/articles/981408/

#LLM_Firewall #LLMSecOps #AIGateway #LLM_as_a_judge #llm #prompt_injection

LLM Firewall: как вписать LLM в контур информационной безопасности

Привет, Хабр! Я Исмагилов Ильнур, разработчик команды Центра интеллектуальной автоматизации Innostage. В прошлой статье мы кратко рассмотрели угрозы ИИ‑сервисам и базовые меры защиты — этого...

Хабр