gmh5225/turboquant-2 - Gitstar Ranking

gmh5225

Fetched on 2026/07/13 21:13

TurboQuant: Near-optimal KV cache quantization for LLM inference (3-bit keys, 2-bit values) with Triton kernels + vLLM integration - View it on GitHub

Star

Rank

14120501

gmh5225

gmh5225 / turboquant-2