chatai

History

hailin b6bb6585d8 first commit.		2025-05-14 22:47:16 +08:00
..
README.md	first commit.	2025-05-14 22:47:16 +08:00
benchmark_deepgemm_fp8_gemm.py	first commit.	2025-05-14 22:47:16 +08:00
benchmark_deepgemm_fp8_group_gemm.py	first commit.	2025-05-14 22:47:16 +08:00

DeepSeek kernels benchmark

You should install DeepGemm from source before run benchmark_deepgemm_fp8_gemm.py and benchmark_deepgemm_fp8_group_gemm.py.

benchmark_deepgemm_fp8_gemm.py

python benchmark_deepgemm_fp8_gemm.py --run_correctness --tp_size 1

benchmark_deepgemm_fp8_group_gemm.py

python benchmark_deepgemm_fp8_group_gemm.py --run_correctness --tp_size 1

You can use the --run_correctness parameter to verify all kernels results's correctness.
- You can use the --tp_size parameter to benchmark all FP8 w8a8 block-wise matrix multiplications involved in DeepSeek V3/R1 under the current tensor parallelism (TP) setting. This benchmark compares DeepSeek's open-source DeepGemm implementation with SGLang's and VLLM Triton implementation.