vllm混合推理扩展插件,支持多NUMA混合推理,单卡推理Qwen3-Next模型可达1000+ prefill - View it on GitHub
Star
31
Rank
689571