Ranking 1k ShowHN posts by estimated merit using an LLM judge and TrueSkill
ShowHN 게시글 1,000개를 LLM 판정자와 TrueSkill 알고리즘을 활용해 기술적 깊이, 참신성, 완성도를 기준으로 재평가하는 파이프라인이 공개되었다. 기존 HN 업보트는 스크린샷만으로 평가하기 쉬운 프로젝트에 유리한 반면, 이 방법은 README 등 상세 기술 문서 기반의 깊이 있는 작업을 더 공정하게 반영한다. LLM 판정자는 쌍대 비교를 통해 순위를 매기며, TrueSkill로 점수를 조정해 신뢰도 높은 랭킹을 산출한다. 다만 LLM의 편향성과 문서화 수준에 따른 평가 차이는 존재해 보조적 참고용으로 활용해야 한다.
