NVIDIA/Model-Optimizer - Gitstar Ranking

NVIDIA

Fetched on 2026/07/10 08:11

A unified library of SOTA model optimization techniques like quantization, distillation, pruning, neural architecture search, speculative decoding, etc. It compresses deep learning models for downstream deployment frameworks like TensorRT-LLM, TensorRT, vLLM, etc. to optimize inference speed. - View it on GitHub

https://nvidia.github.io/Model-Optimizer/

Star

3188

Rank

13199

NVIDIA

NVIDIA / Model-Optimizer