llama.cpp는 의존성 없는 C/C++ 기반 경량 LLM 추론 엔진으로, Apple Silicon·x86·RISC‑V 최적화, CUDA/HIP/MUSA GPU, Vulkan/SYCL, CPU+GPU 하이브리드, 1.5~8비트 양자화와 Hugging Face GGUF 지원을 제공한다. WebUI·OpenAI 호환 서버·다양한 모델과 언어 바인딩을 갖춘 ggml 개발 플랫폼으로 로컬·클라우드에서 손쉽게 고성능 추론을 구현할 수 있다.

https://github.com/TheTom/llama-cpp-turboquant

#llama #ggml #ai #inference #machinelearning

GitHub - TheTom/llama-cpp-turboquant: LLM inference in C/C++

LLM inference in C/C++. Contribute to TheTom/llama-cpp-turboquant development by creating an account on GitHub.

GitHub