evalscope/docs/en/experiments/benchmark/index.md

# Benchmarking

Here are the benchmarking results for some models:

:::{toctree}
:maxdepth: 1

mmlu.md
:::