How fast is N tokens per second really?
tokenspeed는 LLM의 초당 토큰 처리 속도를 체감할 수 있게 해주는 도구로, 다양한 속도(5~800 tok/s)와 출력 모드(코드, 텍스트, 사고, 에이전트)를 지원한다. 이를 통해 GPU나 AI 칩별 벤치마크 수치가 실제로 어떤 체감 속도를 의미하는지 직관적으로 이해할 수 있다. 특히 코드와 텍스트는 토큰 밀도가 달라 같은 토큰 속도라도 체감 차이가 크다는 점을 시각적으로 보여준다. BPE 토크나이저 기반 토큰 개념을 사용하며, AI 개발자가 모델 추론 속도를 현실감 있게 평가하는 데 유용하다.