evalscope/docs/zh/get_started/supported_dataset.md

36 KiB
Raw Permalink Blame History

支持的数据集

1. 原生支持的数据集

目前框架原生支持如下数据集,若您需要的数据集不在列表中,可以提交[issue](https://github.com/modelscope/evalscope/issues),我们会尽快支持;也可以参考[基准评测添加指南](../advanced_guides/add_benchmark.md),自行添加数据集并提交[PR](https://github.com/modelscope/evalscope/pulls),欢迎贡献。

您也可以使用本框架支持的其他工具进行评测,如[OpenCompass](../user_guides/backend/opencompass_backend.md)进行语言模型评测;或使用[VLMEvalKit](../user_guides/backend/vlmevalkit_backend.md)进行多模态模型评测。

LLM评测集

名称 数据集ID 任务类别 备注
aime24 HuggingFaceH4/aime_2024 数学竞赛
aime25 opencompass/AIME2025 数学竞赛 Part1,2
alpaca_eval3 AI-ModelScope/alpaca_eval 指令遵循
注意事项暂不支持length-controlled winrate官方Judge模型为gpt-4-1106-previewbaseline模型为gpt-4-turbo
arc modelscope/ai2_arc 考试
arena_hard3 AI-ModelScope/arena-hard-auto-v0.1 综合推理
注意事项暂不支持style-controled winrate官方Judge模型为gpt-4-1106-previewbaseline模型为gpt-4-0314
bbh modelscope/bbh 综合推理
ceval modelscope/ceval-exam 中文-综合考试
chinese_simpleqa3 AI-ModelScope/Chinese-SimpleQA 中文知识问答 使用 primary_category字段作为子数据集
cmmlu modelscope/cmmlu 中文-综合考试
competition_math modelscope/competition_math 数学竞赛 使用level字段作为子数据集
drop AI-ModelScope/DROP 阅读理解,推理
gpqa modelscope/gpqa 专家级考试
gsm8k modelscope/gsm8k 数学问题
hellaswag modelscope/hellaswag 常识推理
humaneval2 modelscope/humaneval 代码生成
ifeval4 modelscope/ifeval 指令遵循
iquiz modelscope/iquiz 智商和情商
live_code_bench2,4 AI-ModelScope/code_generation_lite 代码生成
说明 子数据集支持 release_v1,release_v5, v1, v4_v5 等版本标签;datase-args中支持设置'extra_params': {'start_date': '2024-12-01','end_date': '2025-01-01'} 来筛选特定时间范围题目
math_500 AI-ModelScope/MATH-500 数学竞赛 使用level字段作为子数据集
maritime_bench HiDolphin/MaritimeBench 航运知识
mmlu modelscope/mmlu 综合考试
mmlu_pro modelscope/mmlu-pro 综合考试 使用category字段作为子数据集
mmlu_redux AI-ModelScope/mmlu-redux-2.0 综合考试
musr AI-ModelScope/MuSR 多步软推理
process_bench Qwen/ProcessBench 数学过程推理
race modelscope/race 阅读理解
simple_qa3 AI-ModelScope/SimpleQA 知识问答
super_gpqa m-a-p/SuperGPQA 专家级考试 使用field字段作为子数据集
tool_bench AI-ModelScope/ToolBench-Statich 工具调用 参考使用说明
trivia_qa modelscope/trivia_qa 知识问答
truthful_qa1 modelscope/truthful_qa 安全性
winogrande AI-ModelScope/winogrande_val 推理,指代消解
**1.** 评测需要计算logits等暂不支持API服务评测(`eval-type != server`)。

**2.** 因为涉及到代码运行的操作,建议在沙盒环境(docker)中运行,防止对本地环境造成影响。

**3.** 该数据集需要指定Judge Model进行评测参考[Judge参数](./parameters.md#judge参数)。

**4.** 建议reasoning模型设置对应数据集的后处理例如`{"filters": {"remove_until": "</think>"}}`,以获得更好的评测结果。

AIGC 评测集

本框架也支持文生图等AIGC相关的评测集具体数据集如下

名称 数据集ID 任务类别 备注
general_t2i 通用文生图 参考教程
evalmuse AI-ModelScope/T2V-Eval-Prompts 图文一致性 EvalMuse 子数据集,默认指标为FGA_BLIP2Score
genai_bench AI-ModelScope/T2V-Eval-Prompts 图文一致性 GenAI-Bench-1600 子数据集,默认指标为VQAScore
hpdv2 AI-ModelScope/T2V-Eval-Prompts 图文一致性 HPDv2 子数据集,默认指标为HPSv2.1Score
tifa160 AI-ModelScope/T2V-Eval-Prompts 图文一致性 TIFA160 子数据集,默认指标为PickScore

2. OpenCompass评测后端支持的数据集

参考详细说明

语言 知识 推理 考试
字词释义
  • WiC
  • SummEdits
成语习语
  • CHID
语义相似度
  • AFQMC
  • BUSTM
指代消解
  • CLUEWSC
  • WSC
  • WinoGrande
翻译
  • Flores
  • IWSLT2017
多语种问答
  • TyDi-QA
  • XCOPA
多语种总结
  • XLSum
知识问答
  • BoolQ
  • CommonSenseQA
  • NaturalQuestions
  • TriviaQA
文本蕴含
  • CMNLI
  • OCNLI
  • OCNLI_FC
  • AX-b
  • AX-g
  • CB
  • RTE
  • ANLI
常识推理
  • StoryCloze
  • COPA
  • ReCoRD
  • HellaSwag
  • PIQA
  • SIQA
数学推理
  • MATH
  • GSM8K
定理应用
  • TheoremQA
  • StrategyQA
  • SciBench
综合推理
  • BBH
初中/高中/大学/职业考试
  • C-Eval
  • AGIEval
  • MMLU
  • GAOKAO-Bench
  • CMMLU
  • ARC
  • Xiezhi
医学考试
  • CMB
理解 长文本 安全 代码
阅读理解
  • C3
  • CMRC
  • DRCD
  • MultiRC
  • RACE
  • DROP
  • OpenBookQA
  • SQuAD2.0
内容总结
  • CSL
  • LCSTS
  • XSum
  • SummScreen
内容分析
  • EPRSTMT
  • LAMBADA
  • TNEWS
长文本理解
  • LEval
  • LongBench
  • GovReports
  • NarrativeQA
  • Qasper
安全
  • CivilComments
  • CrowsPairs
  • CValues
  • JigsawMultilingual
  • TruthfulQA
健壮性
  • AdvGLUE
代码
  • HumanEval
  • HumanEvalX
  • MBPP
  • APPs
  • DS1000

3. VLMEvalKit评测后端支持的数据集

更完整的说明和及时更新的数据集列表,请参考[详细说明](https://aicarrier.feishu.cn/wiki/Qp7wwSzQ9iK1Y6kNUJVcr6zTnPe?table=tblsdEpLieDoCxtb)

图文多模态评测集

使用的缩写:

  • MCQ: 单项选择题;
  • Y/N: 正误判断题;
  • MTT: 多轮对话评测;
  • MTI: 多图输入评测
数据集 名称 任务
MMBench Series:
MMBench, MMBench-CN, CCBench
MMBench_DEV_[EN/CN]
MMBench_TEST_[EN/CN]
MMBench_DEV_[EN/CN]_V11
MMBench_TEST_[EN/CN]_V11
CCBench
MCQ
MMStar MMStar MCQ
MME MME Y/N
SEEDBench Series SEEDBench_IMG
SEEDBench2
SEEDBench2_Plus
MCQ
MM-Vet MMVet VQA
MMMU MMMU_[DEV_VAL/TEST] MCQ
MathVista MathVista_MINI VQA
ScienceQA_IMG ScienceQA_[VAL/TEST] MCQ
COCO Caption COCO_VAL Caption
HallusionBench HallusionBench Y/N
OCRVQA* OCRVQA_[TESTCORE/TEST] VQA
TextVQA* TextVQA_VAL VQA
ChartQA* ChartQA_TEST VQA
AI2D AI2D_[TEST/TEST_NO_MASK] MCQ
LLaVABench LLaVABench VQA
DocVQA+ DocVQA_[VAL/TEST] VQA
InfoVQA+ InfoVQA_[VAL/TEST] VQA
OCRBench OCRBench VQA
RealWorldQA RealWorldQA MCQ
POPE POPE Y/N
Core-MM- CORE_MM (MTI) VQA
MMT-Bench MMT-Bench_[VAL/ALL]
MMT-Bench_[VAL/ALL]_MI
MCQ (MTI)
MLLMGuard - MLLMGuard_DS VQA
AesBench+ AesBench_[VAL/TEST] MCQ
VCR-wiki + VCR_[EN/ZH]_[EASY/HARD]_[ALL/500/100] VQA
MMLongBench-Doc+ MMLongBench_DOC VQA (MTI)
BLINK BLINK MCQ (MTI)
MathVision+ MathVision
MathVision_MINI
VQA
MT-VQA+ MTVQA_TEST VQA
MMDU+ MMDU VQA (MTT, MTI)
Q-Bench1+ Q-Bench1_[VAL/TEST] MCQ
A-Bench+ A-Bench_[VAL/TEST] MCQ
DUDE+ DUDE VQA (MTI)
SlideVQA+ SLIDEVQA
SLIDEVQA_MINI
VQA (MTI)
TaskMeAnything ImageQA Random+ TaskMeAnything_v1_imageqa_random MCQ
MMMB and Multilingual MMBench+ MMMB_[ar/cn/en/pt/ru/tr]
MMBench_dev_[ar/cn/en/pt/ru/tr]
MMMB
MTL_MMBench_DEV
PS: MMMB & MTL_MMBench_DEV
are all-in-one names for 6 langs
MCQ
A-OKVQA+ A-OKVQA MCQ
MuirBench MUIRBench MCQ
GMAI-MMBench+ GMAI-MMBench_VAL MCQ
TableVQABench+ TableVQABench VQA
**\*** 只提供了部分模型上的[测试结果](https://huggingface.co/spaces/opencompass/open_vlm_leaderboard),剩余模型无法在 zero-shot 设定下测试出合理的精度

**\+** 尚未提供这个评测集的测试结果

**\-** VLMEvalKit 仅支持这个评测集的推理,无法输出最终精度

视频多模态评测集

数据集 数据集名称 任务
MMBench-Video MMBench-Video VQA
MVBench MVBench_MP4 MCQ
MLVU MLVU MCQ & VQA
TempCompass TempCompass MCQ & Y/N & Caption
LongVideoBench LongVideoBench MCQ
Video-MME Video-MME MCQ

4. RAGEval评测后端支持的数据集

CMTEB 评测数据集

名称 Hub链接 描述 类型 类别 测试样本数量
T2Retrieval C-MTEB/T2Retrieval T2Ranking一个大规模的中文段落排序基准 检索 s2p 24,832
MMarcoRetrieval C-MTEB/MMarcoRetrieval mMARCO是MS MARCO段落排序数据集的多语言版本 检索 s2p 7,437
DuRetrieval C-MTEB/DuRetrieval 一个大规模的中文网页搜索引擎段落检索基准 检索 s2p 4,000
CovidRetrieval C-MTEB/CovidRetrieval COVID-19新闻文章 检索 s2p 949
CmedqaRetrieval C-MTEB/CmedqaRetrieval 在线医疗咨询文本 检索 s2p 3,999
EcomRetrieval C-MTEB/EcomRetrieval 从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000
MedicalRetrieval C-MTEB/MedicalRetrieval 从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000
VideoRetrieval C-MTEB/VideoRetrieval 从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集 检索 s2p 1,000
T2Reranking C-MTEB/T2Reranking T2Ranking一个大规模的中文段落排序基准 重新排序 s2p 24,382
MMarcoReranking C-MTEB/MMarco-reranking mMARCO是MS MARCO段落排序数据集的多语言版本 重新排序 s2p 7,437
CMedQAv1 C-MTEB/CMedQAv1-reranking 中文社区医疗问答 重新排序 s2p 2,000
CMedQAv2 C-MTEB/CMedQAv2-reranking 中文社区医疗问答 重新排序 s2p 4,000
Ocnli C-MTEB/OCNLI 原始中文自然语言推理数据集 配对分类 s2s 3,000
Cmnli C-MTEB/CMNLI 中文多类别自然语言推理 配对分类 s2s 139,000
CLSClusteringS2S C-MTEB/CLSClusteringS2S 从CLS数据集中聚类标题。基于主要类别的13个集合的聚类。 聚类 s2s 10,000
CLSClusteringP2P C-MTEB/CLSClusteringP2P 从CLS数据集中聚类标题+摘要。基于主要类别的13个集合的聚类。 聚类 p2p 10,000
ThuNewsClusteringS2S C-MTEB/ThuNewsClusteringS2S 从THUCNews数据集中聚类标题 聚类 s2s 10,000
ThuNewsClusteringP2P C-MTEB/ThuNewsClusteringP2P 从THUCNews数据集中聚类标题+摘要 聚类 p2p 10,000
ATEC C-MTEB/ATEC ATEC NLP句子对相似性竞赛 STS s2s 20,000
BQ C-MTEB/BQ 银行问题语义相似性 STS s2s 10,000
LCQMC C-MTEB/LCQMC 大规模中文问题匹配语料库 STS s2s 12,500
PAWSX C-MTEB/PAWSX 翻译的PAWS评测对 STS s2s 2,000
STSB C-MTEB/STSB 将STS-B翻译成中文 STS s2s 1,360
AFQMC C-MTEB/AFQMC 蚂蚁金服问答匹配语料库 STS s2s 3,861
QBQTC C-MTEB/QBQTC QQ浏览器查询标题语料库 STS s2s 5,000
TNews C-MTEB/TNews-classification 新闻短文本分类 分类 s2s 10,000
IFlyTek C-MTEB/IFlyTek-classification 应用描述的长文本分类 分类 s2s 2,600
Waimai C-MTEB/waimai-classification 外卖平台用户评论的情感分析 分类 s2s 1,000
OnlineShopping C-MTEB/OnlineShopping-classification 在线购物网站用户评论的情感分析 分类 s2s 1,000
MultilingualSentiment C-MTEB/MultilingualSentiment-classification 一组按三类分组的多语言情感数据集--正面、中立、负面 分类 s2s 3,000
JDReview C-MTEB/JDReview-classification iPhone的评论 分类 s2s 533

对于检索任务从整个语料库中抽样100,000个候选项包括真实值以降低推理成本。

MTEB 评测数据集

参考:[MTEB相关任务](https://github.com/embeddings-benchmark/mteb/blob/main/docs/tasks.md)

CLIP-Benchmark

数据集名称 任务类型 备注
muge zeroshot_retrieval 中文多模态图文数据集
flickr30k zeroshot_retrieval
flickr8k zeroshot_retrieval
mscoco_captions zeroshot_retrieval
mscoco_captions2017 zeroshot_retrieval
imagenet1k zeroshot_classification
imagenetv2 zeroshot_classification
imagenet_sketch zeroshot_classification
imagenet-a zeroshot_classification
imagenet-r zeroshot_classification
imagenet-o zeroshot_classification
objectnet zeroshot_classification
fer2013 zeroshot_classification
voc2007 zeroshot_classification
voc2007_multilabel zeroshot_classification
sun397 zeroshot_classification
cars zeroshot_classification
fgvc_aircraft zeroshot_classification
mnist zeroshot_classification
stl10 zeroshot_classification
gtsrb zeroshot_classification
country211 zeroshot_classification
renderedsst2 zeroshot_classification
vtab_caltech101 zeroshot_classification
vtab_cifar10 zeroshot_classification
vtab_cifar100 zeroshot_classification
vtab_clevr_count_all zeroshot_classification
vtab_clevr_closest_object_distance zeroshot_classification
vtab_diabetic_retinopathy zeroshot_classification
vtab_dmlab zeroshot_classification
vtab_dsprites_label_orientation zeroshot_classification
vtab_dsprites_label_x_position zeroshot_classification
vtab_dsprites_label_y_position zeroshot_classification
vtab_dtd zeroshot_classification
vtab_eurosat zeroshot_classification
vtab_kitti_closest_vehicle_distance zeroshot_classification
vtab_flowers zeroshot_classification
vtab_pets zeroshot_classification
vtab_pcam zeroshot_classification
vtab_resisc45 zeroshot_classification
vtab_smallnorb_label_azimuth zeroshot_classification
vtab_smallnorb_label_elevation zeroshot_classification
vtab_svhn zeroshot_classification