Avi Chawla (@_avichawla)
Binary Quantization을 활용해 3,600만개 이상의 벡터를 <30ms로 쿼리하는 RAG(검색 기반 생성) 시스템을 구성하는 방법을 공유합니다. 기술 스택: llama_index(오케스트레이션), Milvus(벡터 DB), Kimi-K2 LLM(호스팅: Groq). 고성능 벡터 검색·응답 파이프라인 사례입니다.
Avi Chawla (@_avichawla)
Binary Quantization을 활용해 3,600만개 이상의 벡터를 <30ms로 쿼리하는 RAG(검색 기반 생성) 시스템을 구성하는 방법을 공유합니다. 기술 스택: llama_index(오케스트레이션), Milvus(벡터 DB), Kimi-K2 LLM(호스팅: Groq). 고성능 벡터 검색·응답 파이프라인 사례입니다.