llama.cpp는 의존성 없는 C/C++ 기반 경량 LLM 추론 엔진으로, Apple Silicon·x86·RISC‑V 최적화, CUDA/HIP/MUSA GPU, Vulkan/SYCL, CPU+GPU 하이브리드, 1.5~8비트 양자화와 Hugging Face GGUF 지원을 제공한다. WebUI·OpenAI 호환 서버·다양한 모델과 언어 바인딩을 갖춘 ggml 개발 플랫폼으로 로컬·클라우드에서 손쉽게 고성능 추론을 구현할 수 있다.
llama.cpp는 의존성 없는 C/C++ 기반 경량 LLM 추론 엔진으로, Apple Silicon·x86·RISC‑V 최적화, CUDA/HIP/MUSA GPU, Vulkan/SYCL, CPU+GPU 하이브리드, 1.5~8비트 양자화와 Hugging Face GGUF 지원을 제공한다. WebUI·OpenAI 호환 서버·다양한 모델과 언어 바인딩을 갖춘 ggml 개발 플랫폼으로 로컬·클라우드에서 손쉽게 고성능 추론을 구현할 수 있다.