本框架支持混合多个评测数据集进行统一评测,期望使用更少的数据,获得更全面的评测模型能力。
整体评测流程为:
:::{toctree} :maxdepth: 2
schema.md sample.md evaluate.md :::