AssemblyAI (@AssemblyAI)
음성-텍스트 벤치마크가 실제로는 평가용 정답 파일의 문제 때문에 왜곡될 수 있다는 사례를 소개한다. Universal-3 Pro 출시 후 일부 고객이 새 모델 성능이 더 나쁘게 나온다고 제보했고, 조사 결과 모델 자체보다 진실 파일(truth files)의 오류가 원인일 가능성을 발견했다.
https://x.com/AssemblyAI/status/2036458488436838663
#speechtotext #benchmark #aimodel #evaluation #machinelearning

AssemblyAI (@AssemblyAI) on X
Most speech-to-text benchmarks are broken. Not because the tools are bad—because the truth files are. When we launched Universal-3 Pro, some customers flagged that their benchmarks showed the new model performing worse than older ones. So we dug in. What we found: the model was









