Archive-AI giới thiệu "Quicksilver Inference Engine" – phiên bản nâng cấp nhẹ, tốc độ cao cho LLMs. Tối ưu hóa qua Flash Attention 2, Triton kernel tùy chỉnh (RMSNorm, SiLU), quản lý bộ nhớ khôn ngoan (LRU/LFU/FIFO), và giải mã suy đoán. Hiệu năng tăng 2-4x so với vLLM, kết hợp chuẩn mực và dễ triển khai. #AI #QuicksilverInferenceEngine #ArchiveAI #CôngNghệAI #MachineLearning #TốiĐaHiệuNăng #ViệtNamAI

https://www.reddit.com/r/LocalLLaMA/comments/1pokwmg/archiveai_just_made_a_thing_the_quicksilv