An attempt to explore whether Horty’s prioritised default logic can help reason about value clashes when interpreting evidence from evaluations: https://andifugard.info/applying-deontic-logic-to-policy-evaluation/ #evaluation #ProgramEvaluation #PolicyEvaluation
Applying a deontic logic to policy evaluation – Andi Fugard (∧⇒)

Dan McAteer (@daniel_mac8)

UC Berkeley 연구진이 AI 코딩 에이전트 벤치마크를 조작해 공식 평가 파이프라인에서 실제 해결책 없이도 만점을 받을 수 있음을 보였다. 기존 벤치마크 신뢰성에 대한 문제를 제기하며 METR, GDPval 같은 실제 작업 기반 평가의 중요성을 강조했다.

https://x.com/daniel_mac8/status/2043115874333192688

#benchmark #aicoding #evaluation #berkeley #llm

Dan McAteer (@daniel_mac8) on X

AI coding agent benchmarks are dead. Berkeley researchers gamed each benchmark and got perfect scores on the official eval pipeline w/o a single solution. Only benchmarks that matter are METR, GDPval and your own vibes. Can the model complete your task? That’s what matters.

X (formerly Twitter)

[AI 서비스 PM, 이제 '기획'을 넘어 '평가'를 설계하라

이 글은 생성형 AI 서비스가 늘어나면서 PM의 역할이 단순한 기획을 넘어, 무엇이 좋은 AI 결과인지 ‘평가 기준’을 설계하고 품질을 책임지는 방향으로 바뀌고 있다고 설명한다. 전통적인 소프트웨어처럼 명확한 정답을 검증하는 QA 방식과 달리, AI 서비스는 주관적이고 연속적인 품질 스펙트럼을 다뤄야 하므로 PM이 평가 기준을 명문화하고 데이터셋을 만들며, 필요시 LLM Judge를 활용해 자동 평가 체계를 구축해야 한다는 점을 강조한다.

https://news.hada.io/topic?id=28412

#ai #productmanagement #evaluation #llm #quality

AI 서비스 PM, 이제 '기획'을 넘어 '평가'를 설계하라 | GeekNews

최근 생성형 AI 서비스가 급증하며 PM의 역할에 근본적인 변화가 생기고 있습니다.이는 QA역할에서도 마찬가지인데요.과거 PM이 요구사항(Spec)을 정의하고 QA가 기능의 정상 작동(Pass/Fail)을 검증했다면, AI 시대의 품질은 PM이 직접 '정의'하고 '평가'해야 하는 영역이 되었습니다.왜 QA가 아니라 PM이 품질을 책임지는가?정답의 부재: A

GeekNews

Rich Heimann (@rheimann)

Sutskever’s List를 바탕으로 실제 이해도를 테스트하는 짧은 벤치마크가 공개됐다. 100문항 중 18문항을 추려 쉬움·중간·어려움 난이도를 포함하고, 가입 없이 즉시 점수 확인이 가능하며 이메일 입력 시 상세 해설도 제공한다.

https://x.com/rheimann/status/2042287352031203718

#benchmark #sutskever #llm #evaluation #ai

Rich Heimann (@rheimann) on X

I put together a short benchmark based on Sutskever’s List to test actual understanding. • 18 questions sampled from a 100-question bank • Covers easy, medium, and hard • Instant score (no signup required) • Optional email → full breakdown: what you missed, why, and what to

X (formerly Twitter)
... aber wie in dem untersten Kommentar anklingt, ist es einfach schwer, wenn es so viel Interessantes zum Thema (digitale) Spiele (und Literatur/Deutschdidaktik) zu besprechen gibt! :) #gamestudies #Deutschdidaktik #Deutschunterricht #games #Spielbildung #Literaturunterricht #Evaluation #bluelz
Die #Evaluation bezieht sich auf mein #Masterseminar "Luderatur? - (Digitale) Spiele im Deutschunterricht" für #Lehramtsstudierende an der Stiftung #Universität #Hildesheim im Wintersemester 2025/2026. /2
Auch wenn die Rückmeldung mit 4 von 29 Teilnehmer*innen leider nicht wirklich repräsentativ war, freue ich mich immer besonders, wenn sich Studierende bei der Evaluation doch die Mühe persönlichen Feedbacks machen. /1 #bluelz #games #Literatur #Lehramt #Lehre #Rückmeldung #Evaluation #Feedback

"every innovation report should have two sections:

* Did it deliver on the immediate goals?

* What did it do to the city’s capabilities?"

https://rainerkattel.substack.com/p/kpis-and-innovation-are-natural-enemies

This post is by Rainer Kattel, but it also captures my own uneasiness with "impact assessment" ("not everything that can be counted counts", etc.)

#cities
#indicators
#evaluation

KPIs and Innovation Are Natural Enemies (Especially in Cities)

A “capabilities check” can help city innovation compound rather than reset.

Rainer Kattel’s Substack

Google for Developers (@googledevs)

업데이트된 Android Bench 결과를 공개해, 다양한 모델의 성능을 비교하고 워크플로에 가장 적합한 모델을 찾을 수 있도록 했습니다. 최신 벤치마크 정보로 모델 선택에 참고할 수 있습니다.

https://x.com/googledevs/status/2041652239161262568

#android #benchmark #llm #evaluation #models

Google for Developers (@googledevs) on X

Explore the updated Android Bench results to find the best-performing models for your workflow.

X (formerly Twitter)

ITmedia AI+ (@itm_aiplus)

ZOZO가 엔지니어 여부와 상관없이 동일 기준으로 AI 활용도를 평가하는 독자 지표 "Others"를 공개했다. 사내 AI 활용 수준을 정량화하고 조직 전반의 AI 도입 성과를 비교·관리하려는 시도로 보인다.

https://x.com/itm_aiplus/status/2041741597180887178

#ai #evaluation #metrics #enterpriseai

ITmedia AI+ (@itm_aiplus) on X

ZOZO、独自のAI活用指標「アザース」導入 “エンジニアか否か”問わず同一基準で評価 https://t.co/FhQqWAQLZ2

X (formerly Twitter)