🔊 Đội ngũ đang tối ưu CosyVoice 2 (0.5B) trên Jetson Orin Nano (8‑12 GB) để đạt <200 ms độ trễ streaming. Cần lời khuyên: có thể đạt được không khi chạy song song các mô hình nhỏ? Các lựa chọn thay thế như Qwen3‑TTS, Kokoro‑82M có tốt hơn? Các trick quantization (FP8/INT8) và cấu hình TensorRT giúp rút thời gian token đầu tiên? #AI #EdgeComputing #TTS #CosyVoice #JetsonOrinNano #TríTuệNhânTạo #TiếngNói
https://www.reddit.com/r/LocalLLaMA/comments/1qmqsdy/optimizing_cosyvoice_2_05b_for_200ms_st








