fly51fly (@fly51fly)

이 논문은 소비자 대상 의료 AI 평가에서 모델 능력 자체보다 평가 형식(평가 설계·질문지·시나리오 등)이 트리아지(triage) 실패를 유발한다고 분석한다. 즉 평가 방식이 오진·과소평가의 주요 원인이라는 주장과 함께 의료 AI의 안전성·규제 평가를 위해 평가 프레임워크 개선 및 실제 진료 맥락 반영이 필요함을 제안한다.

https://x.com/fly51fly/status/2033295872113754311

#healthcare #evaluation #consumerhealth #arxiv

fly51fly (@fly51fly) on X

[AI] Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI D F Navarro, F Magrabi, E Coiera [Macquarie University] (2026) https://t.co/bHKetxyYav

X (formerly Twitter)