Explore Help

Register Sign In

hailin

/

vllm

1

0

You've already forked vllm

Code Issues Pull Requests Packages Projects Releases Wiki Activity

vllm/vllm_v0.10.0/docs/features/quantization/README.md

551 B

Raw Permalink Blame History

Quantization

Quantization trades off model precision for smaller memory footprint, allowing large models to be run on a wider range of devices.

Contents:

Supported Hardware
AutoAWQ
BitsAndBytes
BitBLAS
GGUF
GPTQModel
INC
INT4 W4A16
INT8 W8A8
FP8 W8A8
NVIDIA TensorRT Model Optimizer
AMD Quark
Quantized KV Cache
TorchAO

Powered by Gitea Version: 1.21.11 Page: 19ms Template: 2ms

English

Bahasa Indonesia Deutsch English Español Français Italiano Latviešu Magyar nyelv Nederlands Polski Português de Portugal Português do Brasil Suomi Svenska Türkçe Čeština Ελληνικά Български Русский Українська فارسی മലയാളം 日本語简体中文繁體中文（台灣）繁體中文（香港） 한국어

Licenses API