fly51fly (@fly51fly)
이 논문은 소비자 대상 의료 AI 평가에서 모델 능력 자체보다 평가 형식(평가 설계·질문지·시나리오 등)이 트리아지(triage) 실패를 유발한다고 분석한다. 즉 평가 방식이 오진·과소평가의 주요 원인이라는 주장과 함께 의료 AI의 안전성·규제 평가를 위해 평가 프레임워크 개선 및 실제 진료 맥락 반영이 필요함을 제안한다.
fly51fly (@fly51fly)
이 논문은 소비자 대상 의료 AI 평가에서 모델 능력 자체보다 평가 형식(평가 설계·질문지·시나리오 등)이 트리아지(triage) 실패를 유발한다고 분석한다. 즉 평가 방식이 오진·과소평가의 주요 원인이라는 주장과 함께 의료 AI의 안전성·규제 평가를 위해 평가 프레임워크 개선 및 실제 진료 맥락 반영이 필요함을 제안한다.