Sau 1 năm hoàn thiện dần, hệ thống LLM cục bộ của tôi đã xong: 8x3090 (192GB VRAM), chip AMD EPYC 64 nhân & 250GB RAM. Hệ thống đạt 49 tokens/giây với mô hình GLM-4.5. Dựng hệ thống là hành trình vất vả (mất 8.000USD cho hàng dùng lại, cable PCIe 4.0 ngắn gây khó khăn). Tiếp theo: tối ưu năng lượng, thử mô hình AWQ với 8 GPU và triển khai agent lập trình. #AI #LLM #GPUs #AMD #MáyHọc #DoItYourself