Show HN: Sipsa Inference – lossless serving at 50% off
Sipsa Inference는 14개 아키텍처에 대해 5비트 가중치 압축을 적용한 손실 없는 추론 서비스를 제공하며, 각 모델의 성능과 무결성을 SHA-256 해시와 JSON 평가 영수증으로 검증할 수 있다. RTX 5090 GPU 2대를 사용해 405B급 모델도 32GB 단일 GPU에서 스트리밍 압축으로 실행 가능하며, 무료 API 베타도 제공한다. 검증 도구는 실제 바이트 단위로 모델 무결성을 확인해 'lossless'를 신뢰 가능한 계약으로 만든 점이 특징이다. 다양한 모델과 압축 기법의 성공 및 실패 사례를 투명하게 공개해 AI 모델 압축 및 추론 최적화에 실질적 가치를 제공한다.






