36 KiB

Raw Permalink Blame History

支持的数据集

1. 原生支持的数据集

目前框架原生支持如下数据集，若您需要的数据集不在列表中，可以提交[issue](https://github.com/modelscope/evalscope/issues)，我们会尽快支持；也可以参考[基准评测添加指南](../advanced_guides/add_benchmark.md)，自行添加数据集并提交[PR](https://github.com/modelscope/evalscope/pulls)，欢迎贡献。

您也可以使用本框架支持的其他工具进行评测，如[OpenCompass](../user_guides/backend/opencompass_backend.md)进行语言模型评测；或使用[VLMEvalKit](../user_guides/backend/vlmevalkit_backend.md)进行多模态模型评测。

LLM评测集

名称	数据集ID	任务类别	备注
`aime24`	HuggingFaceH4/aime_2024	数学竞赛
`aime25`	opencompass/AIME2025	数学竞赛	Part1,2
`alpaca_eval`³	AI-ModelScope/alpaca_eval	指令遵循	注意事项暂不支持`length-controlled winrate`；官方Judge模型为`gpt-4-1106-preview`，baseline模型为`gpt-4-turbo`
`arc`	modelscope/ai2_arc	考试
`arena_hard`³	AI-ModelScope/arena-hard-auto-v0.1	综合推理	注意事项暂不支持`style-controled winrate`；官方Judge模型为`gpt-4-1106-preview`，baseline模型为`gpt-4-0314`
`bbh`	modelscope/bbh	综合推理
`ceval`	modelscope/ceval-exam	中文-综合考试
`chinese_simpleqa`³	AI-ModelScope/Chinese-SimpleQA	中文知识问答	使用 `primary_category`字段作为子数据集
`cmmlu`	modelscope/cmmlu	中文-综合考试
`competition_math`	modelscope/competition_math	数学竞赛	使用`level`字段作为子数据集
`drop`	AI-ModelScope/DROP	阅读理解，推理
`gpqa`	modelscope/gpqa	专家级考试
`gsm8k`	modelscope/gsm8k	数学问题
`hellaswag`	modelscope/hellaswag	常识推理
`humaneval`²	modelscope/humaneval	代码生成
`ifeval`⁴	modelscope/ifeval	指令遵循
`iquiz`	modelscope/iquiz	智商和情商
`live_code_bench`^2,4	AI-ModelScope/code_generation_lite	代码生成	说明子数据集支持 `release_v1`,`release_v5`, `v1`, `v4_v5` 等版本标签；`datase-args`中支持设置`'extra_params': {'start_date': '2024-12-01','end_date': '2025-01-01'}` 来筛选特定时间范围题目
`math_500`	AI-ModelScope/MATH-500	数学竞赛	使用`level`字段作为子数据集
`maritime_bench`	HiDolphin/MaritimeBench	航运知识
`mmlu`	modelscope/mmlu	综合考试
`mmlu_pro`	modelscope/mmlu-pro	综合考试	使用`category`字段作为子数据集
`mmlu_redux`	AI-ModelScope/mmlu-redux-2.0	综合考试
`musr`	AI-ModelScope/MuSR	多步软推理
`process_bench`	Qwen/ProcessBench	数学过程推理
`race`	modelscope/race	阅读理解
`simple_qa`³	AI-ModelScope/SimpleQA	知识问答
`super_gpqa`	m-a-p/SuperGPQA	专家级考试	使用`field`字段作为子数据集
`tool_bench`	AI-ModelScope/ToolBench-Statich	工具调用	参考使用说明
`trivia_qa`	modelscope/trivia_qa	知识问答
`truthful_qa`¹	modelscope/truthful_qa	安全性
`winogrande`	AI-ModelScope/winogrande_val	推理，指代消解

**1.** 评测需要计算logits等，暂不支持API服务评测(`eval-type != server`)。

**2.** 因为涉及到代码运行的操作，建议在沙盒环境(docker)中运行，防止对本地环境造成影响。

**3.** 该数据集需要指定Judge Model进行评测，参考[Judge参数](./parameters.md#judge参数)。

**4.** 建议reasoning模型设置对应数据集的后处理，例如`{"filters": {"remove_until": "</think>"}}`，以获得更好的评测结果。

AIGC 评测集

本框架也支持文生图等AIGC相关的评测集，具体数据集如下：

名称	数据集ID	任务类别	备注
`general_t2i`		通用文生图	参考教程
`evalmuse`	AI-ModelScope/T2V-Eval-Prompts	图文一致性	EvalMuse 子数据集，默认指标为`FGA_BLIP2Score`
`genai_bench`	AI-ModelScope/T2V-Eval-Prompts	图文一致性	GenAI-Bench-1600 子数据集，默认指标为`VQAScore`
`hpdv2`	AI-ModelScope/T2V-Eval-Prompts	图文一致性	HPDv2 子数据集，默认指标为`HPSv2.1Score`
`tifa160`	AI-ModelScope/T2V-Eval-Prompts	图文一致性	TIFA160 子数据集，默认指标为`PickScore`

2. OpenCompass评测后端支持的数据集

参考详细说明

语言	知识	推理	考试
字词释义 WiC SummEdits 成语习语 CHID 语义相似度 AFQMC BUSTM 指代消解 CLUEWSC WSC WinoGrande 翻译 Flores IWSLT2017 多语种问答 TyDi-QA XCOPA 多语种总结 XLSum	知识问答 BoolQ CommonSenseQA NaturalQuestions TriviaQA	文本蕴含 CMNLI OCNLI OCNLI_FC AX-b AX-g CB RTE ANLI 常识推理 StoryCloze COPA ReCoRD HellaSwag PIQA SIQA 数学推理 MATH GSM8K 定理应用 TheoremQA StrategyQA SciBench 综合推理 BBH	初中/高中/大学/职业考试 C-Eval AGIEval MMLU GAOKAO-Bench CMMLU ARC Xiezhi 医学考试 CMB
理解	长文本	安全	代码
阅读理解 C3 CMRC DRCD MultiRC RACE DROP OpenBookQA SQuAD2.0 内容总结 CSL LCSTS XSum SummScreen 内容分析 EPRSTMT LAMBADA TNEWS	长文本理解 LEval LongBench GovReports NarrativeQA Qasper	安全 CivilComments CrowsPairs CValues JigsawMultilingual TruthfulQA 健壮性 AdvGLUE	代码 HumanEval HumanEvalX MBPP APPs DS1000

3. VLMEvalKit评测后端支持的数据集

更完整的说明和及时更新的数据集列表，请参考[详细说明](https://aicarrier.feishu.cn/wiki/Qp7wwSzQ9iK1Y6kNUJVcr6zTnPe?table=tblsdEpLieDoCxtb)

图文多模态评测集

使用的缩写：

MCQ: 单项选择题;
Y/N: 正误判断题;
MTT: 多轮对话评测;
MTI: 多图输入评测

数据集	名称	任务
MMBench Series: MMBench, MMBench-CN, CCBench	MMBench_DEV_[EN/CN] MMBench_TEST_[EN/CN] MMBench_DEV_[EN/CN]_V11 MMBench_TEST_[EN/CN]_V11 CCBench	MCQ
MMStar	MMStar	MCQ
MME	MME	Y/N
SEEDBench Series	SEEDBench_IMG SEEDBench2 SEEDBench2_Plus	MCQ
MM-Vet	MMVet	VQA
MMMU	MMMU_[DEV_VAL/TEST]	MCQ
MathVista	MathVista_MINI	VQA
ScienceQA_IMG	ScienceQA_[VAL/TEST]	MCQ
COCO Caption	COCO_VAL	Caption
HallusionBench	HallusionBench	Y/N
OCRVQA*	OCRVQA_[TESTCORE/TEST]	VQA
TextVQA*	TextVQA_VAL	VQA
ChartQA*	ChartQA_TEST	VQA
AI2D	AI2D_[TEST/TEST_NO_MASK]	MCQ
LLaVABench	LLaVABench	VQA
DocVQA+	DocVQA_[VAL/TEST]	VQA
InfoVQA+	InfoVQA_[VAL/TEST]	VQA
OCRBench	OCRBench	VQA
RealWorldQA	RealWorldQA	MCQ
POPE	POPE	Y/N
Core-MM-	CORE_MM (MTI)	VQA
MMT-Bench	MMT-Bench_[VAL/ALL] MMT-Bench_[VAL/ALL]_MI	MCQ (MTI)
MLLMGuard -	MLLMGuard_DS	VQA
AesBench+	AesBench_[VAL/TEST]	MCQ
VCR-wiki +	VCR_[EN/ZH]_[EASY/HARD]_[ALL/500/100]	VQA
MMLongBench-Doc+	MMLongBench_DOC	VQA (MTI)
BLINK	BLINK	MCQ (MTI)
MathVision+	MathVision MathVision_MINI	VQA
MT-VQA+	MTVQA_TEST	VQA
MMDU+	MMDU	VQA (MTT, MTI)
Q-Bench1+	Q-Bench1_[VAL/TEST]	MCQ
A-Bench+	A-Bench_[VAL/TEST]	MCQ
DUDE+	DUDE	VQA (MTI)
SlideVQA+	SLIDEVQA SLIDEVQA_MINI	VQA (MTI)
TaskMeAnything ImageQA Random+	TaskMeAnything_v1_imageqa_random	MCQ
MMMB and Multilingual MMBench+	MMMB_[ar/cn/en/pt/ru/tr] MMBench_dev_[ar/cn/en/pt/ru/tr] MMMB MTL_MMBench_DEV PS: MMMB & MTL_MMBench_DEV are all-in-one names for 6 langs	MCQ
A-OKVQA+	A-OKVQA	MCQ
MuirBench	MUIRBench	MCQ
GMAI-MMBench+	GMAI-MMBench_VAL	MCQ
TableVQABench+	TableVQABench	VQA

**\*** 只提供了部分模型上的[测试结果](https://huggingface.co/spaces/opencompass/open_vlm_leaderboard)，剩余模型无法在 zero-shot 设定下测试出合理的精度

**\+** 尚未提供这个评测集的测试结果

**\-** VLMEvalKit 仅支持这个评测集的推理，无法输出最终精度

视频多模态评测集

数据集	数据集名称	任务
MMBench-Video	MMBench-Video	VQA
MVBench	MVBench_MP4	MCQ
MLVU	MLVU	MCQ & VQA
TempCompass	TempCompass	MCQ & Y/N & Caption
LongVideoBench	LongVideoBench	MCQ
Video-MME	Video-MME	MCQ

4. RAGEval评测后端支持的数据集

CMTEB 评测数据集

名称	Hub链接	描述	类型	类别	测试样本数量
T2Retrieval	C-MTEB/T2Retrieval	T2Ranking：一个大规模的中文段落排序基准	检索	s2p	24,832
MMarcoRetrieval	C-MTEB/MMarcoRetrieval	mMARCO是MS MARCO段落排序数据集的多语言版本	检索	s2p	7,437
DuRetrieval	C-MTEB/DuRetrieval	一个大规模的中文网页搜索引擎段落检索基准	检索	s2p	4,000
CovidRetrieval	C-MTEB/CovidRetrieval	COVID-19新闻文章	检索	s2p	949
CmedqaRetrieval	C-MTEB/CmedqaRetrieval	在线医疗咨询文本	检索	s2p	3,999
EcomRetrieval	C-MTEB/EcomRetrieval	从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集	检索	s2p	1,000
MedicalRetrieval	C-MTEB/MedicalRetrieval	从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集	检索	s2p	1,000
VideoRetrieval	C-MTEB/VideoRetrieval	从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集	检索	s2p	1,000
T2Reranking	C-MTEB/T2Reranking	T2Ranking：一个大规模的中文段落排序基准	重新排序	s2p	24,382
MMarcoReranking	C-MTEB/MMarco-reranking	mMARCO是MS MARCO段落排序数据集的多语言版本	重新排序	s2p	7,437
CMedQAv1	C-MTEB/CMedQAv1-reranking	中文社区医疗问答	重新排序	s2p	2,000
CMedQAv2	C-MTEB/CMedQAv2-reranking	中文社区医疗问答	重新排序	s2p	4,000
Ocnli	C-MTEB/OCNLI	原始中文自然语言推理数据集	配对分类	s2s	3,000
Cmnli	C-MTEB/CMNLI	中文多类别自然语言推理	配对分类	s2s	139,000
CLSClusteringS2S	C-MTEB/CLSClusteringS2S	从CLS数据集中聚类标题。基于主要类别的13个集合的聚类。	聚类	s2s	10,000
CLSClusteringP2P	C-MTEB/CLSClusteringP2P	从CLS数据集中聚类标题+摘要。基于主要类别的13个集合的聚类。	聚类	p2p	10,000
ThuNewsClusteringS2S	C-MTEB/ThuNewsClusteringS2S	从THUCNews数据集中聚类标题	聚类	s2s	10,000
ThuNewsClusteringP2P	C-MTEB/ThuNewsClusteringP2P	从THUCNews数据集中聚类标题+摘要	聚类	p2p	10,000
ATEC	C-MTEB/ATEC	ATEC NLP句子对相似性竞赛	STS	s2s	20,000
BQ	C-MTEB/BQ	银行问题语义相似性	STS	s2s	10,000
LCQMC	C-MTEB/LCQMC	大规模中文问题匹配语料库	STS	s2s	12,500
PAWSX	C-MTEB/PAWSX	翻译的PAWS评测对	STS	s2s	2,000
STSB	C-MTEB/STSB	将STS-B翻译成中文	STS	s2s	1,360
AFQMC	C-MTEB/AFQMC	蚂蚁金服问答匹配语料库	STS	s2s	3,861
QBQTC	C-MTEB/QBQTC	QQ浏览器查询标题语料库	STS	s2s	5,000
TNews	C-MTEB/TNews-classification	新闻短文本分类	分类	s2s	10,000
IFlyTek	C-MTEB/IFlyTek-classification	应用描述的长文本分类	分类	s2s	2,600
Waimai	C-MTEB/waimai-classification	外卖平台用户评论的情感分析	分类	s2s	1,000
OnlineShopping	C-MTEB/OnlineShopping-classification	在线购物网站用户评论的情感分析	分类	s2s	1,000
MultilingualSentiment	C-MTEB/MultilingualSentiment-classification	一组按三类分组的多语言情感数据集--正面、中立、负面	分类	s2s	3,000
JDReview	C-MTEB/JDReview-classification	iPhone的评论	分类	s2s	533

对于检索任务，从整个语料库中抽样100,000个候选项（包括真实值），以降低推理成本。

MTEB 评测数据集

参考：[MTEB相关任务](https://github.com/embeddings-benchmark/mteb/blob/main/docs/tasks.md)

CLIP-Benchmark

数据集名称	任务类型	备注
muge	zeroshot_retrieval	中文多模态图文数据集
flickr30k	zeroshot_retrieval
flickr8k	zeroshot_retrieval
mscoco_captions	zeroshot_retrieval
mscoco_captions2017	zeroshot_retrieval
imagenet1k	zeroshot_classification
imagenetv2	zeroshot_classification
imagenet_sketch	zeroshot_classification
imagenet-a	zeroshot_classification
imagenet-r	zeroshot_classification
imagenet-o	zeroshot_classification
objectnet	zeroshot_classification
fer2013	zeroshot_classification
voc2007	zeroshot_classification
voc2007_multilabel	zeroshot_classification
sun397	zeroshot_classification
cars	zeroshot_classification
fgvc_aircraft	zeroshot_classification
mnist	zeroshot_classification
stl10	zeroshot_classification
gtsrb	zeroshot_classification
country211	zeroshot_classification
renderedsst2	zeroshot_classification
vtab_caltech101	zeroshot_classification
vtab_cifar10	zeroshot_classification
vtab_cifar100	zeroshot_classification
vtab_clevr_count_all	zeroshot_classification
vtab_clevr_closest_object_distance	zeroshot_classification
vtab_diabetic_retinopathy	zeroshot_classification
vtab_dmlab	zeroshot_classification
vtab_dsprites_label_orientation	zeroshot_classification
vtab_dsprites_label_x_position	zeroshot_classification
vtab_dsprites_label_y_position	zeroshot_classification
vtab_dtd	zeroshot_classification
vtab_eurosat	zeroshot_classification
vtab_kitti_closest_vehicle_distance	zeroshot_classification
vtab_flowers	zeroshot_classification
vtab_pets	zeroshot_classification
vtab_pcam	zeroshot_classification
vtab_resisc45	zeroshot_classification
vtab_smallnorb_label_azimuth	zeroshot_classification
vtab_smallnorb_label_elevation	zeroshot_classification
vtab_svhn	zeroshot_classification

36 KiB Raw Permalink Blame History Unescape Escape

支持的数据集

1. 原生支持的数据集

LLM评测集

AIGC 评测集

2. OpenCompass评测后端支持的数据集

3. VLMEvalKit评测后端支持的数据集

图文多模态评测集

视频多模态评测集

4. RAGEval评测后端支持的数据集

CMTEB 评测数据集

MTEB 评测数据集

CLIP-Benchmark

36 KiB

Raw Permalink Blame History