How LLM Inference Works
μ΄ κΈμ LLM μΆλ‘ κ³Όμ μ ν΅μ¬ λ¨κ³λ₯Ό μμΈν μ€λͺ
νλ€. ν ν°ν, μλ² λ©, μ΄ν
μ
, ν리ν(prefill)κ³Ό λμ½λ(decode) λ¨κ³μ μ°¨μ΄, κ·Έλ¦¬κ³ KV μΊμμ μν κ³Ό νκ³μ λν΄ λ€λ£¬λ€. νΉν ν리ν λ¨κ³λ GPU μ°μ° μ§μ½μ μ΄κ³ , λμ½λ λ¨κ³λ λ©λͺ¨λ¦¬ λμνμ΄ λ³λͺ©μ΄ λλ μ μ κ°μ‘°νλ©°, κΈ΄ 컨ν
μ€νΈ μ²λ¦¬μμ μΊμ μ΅μ νκ° μ€μν¨μ μ€λͺ
νλ€. λν, μΊμ ν¬κΈ°λ₯Ό μ€μ΄κΈ° μν μ΅μ μ°κ΅¬ λν₯κ³Ό μμν κΈ°λ²λ μκ°νλ€.
https://twitter.com/akshay_pachaar/status/2050941458614751327
#llm #inference #attention #kvcache #quantization