Batasan Penggunaan KV Cache Saat Menggunakan Single GPU vs Multi-GPU
KV cache adalah mekanisme penyimpanan kunci dan nilai dalam model transformer untuk mempercepat proses inferensi. Penggunaan KV cache memiliki batasan berbeda ketika dijalankan pada single GPU dibandingkan multi-GPU, terkait dengan kapasitas memori, bandwidth komunikasi, dan kompleksitas sinkronisasi.