36 KiB
36 KiB
支持的数据集
1. 原生支持的数据集
目前框架原生支持如下数据集,若您需要的数据集不在列表中,可以提交[issue](https://github.com/modelscope/evalscope/issues),我们会尽快支持;也可以参考[基准评测添加指南](../advanced_guides/add_benchmark.md),自行添加数据集并提交[PR](https://github.com/modelscope/evalscope/pulls),欢迎贡献。
您也可以使用本框架支持的其他工具进行评测,如[OpenCompass](../user_guides/backend/opencompass_backend.md)进行语言模型评测;或使用[VLMEvalKit](../user_guides/backend/vlmevalkit_backend.md)进行多模态模型评测。
LLM评测集
| 名称 | 数据集ID | 任务类别 | 备注 |
|---|---|---|---|
aime24 |
HuggingFaceH4/aime_2024 | 数学竞赛 | |
aime25 |
opencompass/AIME2025 | 数学竞赛 | Part1,2 |
alpaca_eval3 |
AI-ModelScope/alpaca_eval | 指令遵循 | 注意事项暂不支持length-controlled winrate;官方Judge模型为gpt-4-1106-preview,baseline模型为gpt-4-turbo |
arc |
modelscope/ai2_arc | 考试 | |
arena_hard3 |
AI-ModelScope/arena-hard-auto-v0.1 | 综合推理 | 注意事项暂不支持style-controled winrate;官方Judge模型为gpt-4-1106-preview,baseline模型为gpt-4-0314 |
bbh |
modelscope/bbh | 综合推理 | |
ceval |
modelscope/ceval-exam | 中文-综合考试 | |
chinese_simpleqa3 |
AI-ModelScope/Chinese-SimpleQA | 中文知识问答 | 使用 primary_category字段作为子数据集 |
cmmlu |
modelscope/cmmlu | 中文-综合考试 | |
competition_math |
modelscope/competition_math | 数学竞赛 | 使用level字段作为子数据集 |
drop |
AI-ModelScope/DROP | 阅读理解,推理 | |
gpqa |
modelscope/gpqa | 专家级考试 | |
gsm8k |
modelscope/gsm8k | 数学问题 | |
hellaswag |
modelscope/hellaswag | 常识推理 | |
humaneval2 |
modelscope/humaneval | 代码生成 | |
ifeval4 |
modelscope/ifeval | 指令遵循 | |
iquiz |
modelscope/iquiz | 智商和情商 | |
live_code_bench2,4 |
AI-ModelScope/code_generation_lite | 代码生成 | 说明子数据集支持release_v1,release_v5, v1, v4_v5 等版本标签;datase-args中支持设置'extra_params': {'start_date': '2024-12-01','end_date': '2025-01-01'} 来筛选特定时间范围题目 |
math_500 |
AI-ModelScope/MATH-500 | 数学竞赛 | 使用level字段作为子数据集 |
maritime_bench |
HiDolphin/MaritimeBench | 航运知识 | |
mmlu |
modelscope/mmlu | 综合考试 | |
mmlu_pro |
modelscope/mmlu-pro | 综合考试 | 使用category字段作为子数据集 |
mmlu_redux |
AI-ModelScope/mmlu-redux-2.0 | 综合考试 | |
musr |
AI-ModelScope/MuSR | 多步软推理 | |
process_bench |
Qwen/ProcessBench | 数学过程推理 | |
race |
modelscope/race | 阅读理解 | |
simple_qa3 |
AI-ModelScope/SimpleQA | 知识问答 | |
super_gpqa |
m-a-p/SuperGPQA | 专家级考试 | 使用field字段作为子数据集 |
tool_bench |
AI-ModelScope/ToolBench-Statich | 工具调用 | 参考使用说明 |
trivia_qa |
modelscope/trivia_qa | 知识问答 | |
truthful_qa1 |
modelscope/truthful_qa | 安全性 | |
winogrande |
AI-ModelScope/winogrande_val | 推理,指代消解 |
**1.** 评测需要计算logits等,暂不支持API服务评测(`eval-type != server`)。
**2.** 因为涉及到代码运行的操作,建议在沙盒环境(docker)中运行,防止对本地环境造成影响。
**3.** 该数据集需要指定Judge Model进行评测,参考[Judge参数](./parameters.md#judge参数)。
**4.** 建议reasoning模型设置对应数据集的后处理,例如`{"filters": {"remove_until": "</think>"}}`,以获得更好的评测结果。
AIGC 评测集
本框架也支持文生图等AIGC相关的评测集,具体数据集如下:
| 名称 | 数据集ID | 任务类别 | 备注 |
|---|---|---|---|
general_t2i |
通用文生图 | 参考教程 | |
evalmuse |
AI-ModelScope/T2V-Eval-Prompts | 图文一致性 | EvalMuse 子数据集,默认指标为FGA_BLIP2Score |
genai_bench |
AI-ModelScope/T2V-Eval-Prompts | 图文一致性 | GenAI-Bench-1600 子数据集,默认指标为VQAScore |
hpdv2 |
AI-ModelScope/T2V-Eval-Prompts | 图文一致性 | HPDv2 子数据集,默认指标为HPSv2.1Score |
tifa160 |
AI-ModelScope/T2V-Eval-Prompts | 图文一致性 | TIFA160 子数据集,默认指标为PickScore |
2. OpenCompass评测后端支持的数据集
参考详细说明
| 语言 | 知识 | 推理 | 考试 |
字词释义
成语习语
语义相似度
指代消解
翻译
多语种问答
多语种总结
|
知识问答
|
文本蕴含
常识推理
数学推理
定理应用
综合推理
|
初中/高中/大学/职业考试
医学考试
|
| 理解 | 长文本 | 安全 | 代码 |
阅读理解
内容总结
内容分析
|
长文本理解
|
安全
健壮性
|
代码
|
3. VLMEvalKit评测后端支持的数据集
更完整的说明和及时更新的数据集列表,请参考[详细说明](https://aicarrier.feishu.cn/wiki/Qp7wwSzQ9iK1Y6kNUJVcr6zTnPe?table=tblsdEpLieDoCxtb)
图文多模态评测集
使用的缩写:
MCQ: 单项选择题;Y/N: 正误判断题;MTT: 多轮对话评测;MTI: 多图输入评测
| 数据集 | 名称 | 任务 |
|---|---|---|
| MMBench Series: MMBench, MMBench-CN, CCBench |
MMBench_DEV_[EN/CN] MMBench_TEST_[EN/CN] MMBench_DEV_[EN/CN]_V11 MMBench_TEST_[EN/CN]_V11 CCBench |
MCQ |
| MMStar | MMStar | MCQ |
| MME | MME | Y/N |
| SEEDBench Series | SEEDBench_IMG SEEDBench2 SEEDBench2_Plus |
MCQ |
| MM-Vet | MMVet | VQA |
| MMMU | MMMU_[DEV_VAL/TEST] | MCQ |
| MathVista | MathVista_MINI | VQA |
| ScienceQA_IMG | ScienceQA_[VAL/TEST] | MCQ |
| COCO Caption | COCO_VAL | Caption |
| HallusionBench | HallusionBench | Y/N |
| OCRVQA* | OCRVQA_[TESTCORE/TEST] | VQA |
| TextVQA* | TextVQA_VAL | VQA |
| ChartQA* | ChartQA_TEST | VQA |
| AI2D | AI2D_[TEST/TEST_NO_MASK] | MCQ |
| LLaVABench | LLaVABench | VQA |
| DocVQA+ | DocVQA_[VAL/TEST] | VQA |
| InfoVQA+ | InfoVQA_[VAL/TEST] | VQA |
| OCRBench | OCRBench | VQA |
| RealWorldQA | RealWorldQA | MCQ |
| POPE | POPE | Y/N |
| Core-MM- | CORE_MM (MTI) | VQA |
| MMT-Bench | MMT-Bench_[VAL/ALL] MMT-Bench_[VAL/ALL]_MI |
MCQ (MTI) |
| MLLMGuard - | MLLMGuard_DS | VQA |
| AesBench+ | AesBench_[VAL/TEST] | MCQ |
| VCR-wiki + | VCR_[EN/ZH]_[EASY/HARD]_[ALL/500/100] | VQA |
| MMLongBench-Doc+ | MMLongBench_DOC | VQA (MTI) |
| BLINK | BLINK | MCQ (MTI) |
| MathVision+ | MathVision MathVision_MINI |
VQA |
| MT-VQA+ | MTVQA_TEST | VQA |
| MMDU+ | MMDU | VQA (MTT, MTI) |
| Q-Bench1+ | Q-Bench1_[VAL/TEST] | MCQ |
| A-Bench+ | A-Bench_[VAL/TEST] | MCQ |
| DUDE+ | DUDE | VQA (MTI) |
| SlideVQA+ | SLIDEVQA SLIDEVQA_MINI |
VQA (MTI) |
| TaskMeAnything ImageQA Random+ | TaskMeAnything_v1_imageqa_random | MCQ |
| MMMB and Multilingual MMBench+ | MMMB_[ar/cn/en/pt/ru/tr] MMBench_dev_[ar/cn/en/pt/ru/tr] MMMB MTL_MMBench_DEV PS: MMMB & MTL_MMBench_DEV are all-in-one names for 6 langs |
MCQ |
| A-OKVQA+ | A-OKVQA | MCQ |
| MuirBench | MUIRBench | MCQ |
| GMAI-MMBench+ | GMAI-MMBench_VAL | MCQ |
| TableVQABench+ | TableVQABench | VQA |
**\*** 只提供了部分模型上的[测试结果](https://huggingface.co/spaces/opencompass/open_vlm_leaderboard),剩余模型无法在 zero-shot 设定下测试出合理的精度
**\+** 尚未提供这个评测集的测试结果
**\-** VLMEvalKit 仅支持这个评测集的推理,无法输出最终精度
视频多模态评测集
| 数据集 | 数据集名称 | 任务 |
|---|---|---|
| MMBench-Video | MMBench-Video | VQA |
| MVBench | MVBench_MP4 | MCQ |
| MLVU | MLVU | MCQ & VQA |
| TempCompass | TempCompass | MCQ & Y/N & Caption |
| LongVideoBench | LongVideoBench | MCQ |
| Video-MME | Video-MME | MCQ |
4. RAGEval评测后端支持的数据集
CMTEB 评测数据集
| 名称 | Hub链接 | 描述 | 类型 | 类别 | 测试样本数量 |
|---|---|---|---|---|---|
| T2Retrieval | C-MTEB/T2Retrieval | T2Ranking:一个大规模的中文段落排序基准 | 检索 | s2p | 24,832 |
| MMarcoRetrieval | C-MTEB/MMarcoRetrieval | mMARCO是MS MARCO段落排序数据集的多语言版本 | 检索 | s2p | 7,437 |
| DuRetrieval | C-MTEB/DuRetrieval | 一个大规模的中文网页搜索引擎段落检索基准 | 检索 | s2p | 4,000 |
| CovidRetrieval | C-MTEB/CovidRetrieval | COVID-19新闻文章 | 检索 | s2p | 949 |
| CmedqaRetrieval | C-MTEB/CmedqaRetrieval | 在线医疗咨询文本 | 检索 | s2p | 3,999 |
| EcomRetrieval | C-MTEB/EcomRetrieval | 从阿里巴巴电商领域搜索引擎系统收集的段落检索数据集 | 检索 | s2p | 1,000 |
| MedicalRetrieval | C-MTEB/MedicalRetrieval | 从阿里巴巴医疗领域搜索引擎系统收集的段落检索数据集 | 检索 | s2p | 1,000 |
| VideoRetrieval | C-MTEB/VideoRetrieval | 从阿里巴巴视频领域搜索引擎系统收集的段落检索数据集 | 检索 | s2p | 1,000 |
| T2Reranking | C-MTEB/T2Reranking | T2Ranking:一个大规模的中文段落排序基准 | 重新排序 | s2p | 24,382 |
| MMarcoReranking | C-MTEB/MMarco-reranking | mMARCO是MS MARCO段落排序数据集的多语言版本 | 重新排序 | s2p | 7,437 |
| CMedQAv1 | C-MTEB/CMedQAv1-reranking | 中文社区医疗问答 | 重新排序 | s2p | 2,000 |
| CMedQAv2 | C-MTEB/CMedQAv2-reranking | 中文社区医疗问答 | 重新排序 | s2p | 4,000 |
| Ocnli | C-MTEB/OCNLI | 原始中文自然语言推理数据集 | 配对分类 | s2s | 3,000 |
| Cmnli | C-MTEB/CMNLI | 中文多类别自然语言推理 | 配对分类 | s2s | 139,000 |
| CLSClusteringS2S | C-MTEB/CLSClusteringS2S | 从CLS数据集中聚类标题。基于主要类别的13个集合的聚类。 | 聚类 | s2s | 10,000 |
| CLSClusteringP2P | C-MTEB/CLSClusteringP2P | 从CLS数据集中聚类标题+摘要。基于主要类别的13个集合的聚类。 | 聚类 | p2p | 10,000 |
| ThuNewsClusteringS2S | C-MTEB/ThuNewsClusteringS2S | 从THUCNews数据集中聚类标题 | 聚类 | s2s | 10,000 |
| ThuNewsClusteringP2P | C-MTEB/ThuNewsClusteringP2P | 从THUCNews数据集中聚类标题+摘要 | 聚类 | p2p | 10,000 |
| ATEC | C-MTEB/ATEC | ATEC NLP句子对相似性竞赛 | STS | s2s | 20,000 |
| BQ | C-MTEB/BQ | 银行问题语义相似性 | STS | s2s | 10,000 |
| LCQMC | C-MTEB/LCQMC | 大规模中文问题匹配语料库 | STS | s2s | 12,500 |
| PAWSX | C-MTEB/PAWSX | 翻译的PAWS评测对 | STS | s2s | 2,000 |
| STSB | C-MTEB/STSB | 将STS-B翻译成中文 | STS | s2s | 1,360 |
| AFQMC | C-MTEB/AFQMC | 蚂蚁金服问答匹配语料库 | STS | s2s | 3,861 |
| QBQTC | C-MTEB/QBQTC | QQ浏览器查询标题语料库 | STS | s2s | 5,000 |
| TNews | C-MTEB/TNews-classification | 新闻短文本分类 | 分类 | s2s | 10,000 |
| IFlyTek | C-MTEB/IFlyTek-classification | 应用描述的长文本分类 | 分类 | s2s | 2,600 |
| Waimai | C-MTEB/waimai-classification | 外卖平台用户评论的情感分析 | 分类 | s2s | 1,000 |
| OnlineShopping | C-MTEB/OnlineShopping-classification | 在线购物网站用户评论的情感分析 | 分类 | s2s | 1,000 |
| MultilingualSentiment | C-MTEB/MultilingualSentiment-classification | 一组按三类分组的多语言情感数据集--正面、中立、负面 | 分类 | s2s | 3,000 |
| JDReview | C-MTEB/JDReview-classification | iPhone的评论 | 分类 | s2s | 533 |
对于检索任务,从整个语料库中抽样100,000个候选项(包括真实值),以降低推理成本。
MTEB 评测数据集
参考:[MTEB相关任务](https://github.com/embeddings-benchmark/mteb/blob/main/docs/tasks.md)
CLIP-Benchmark
| 数据集名称 | 任务类型 | 备注 |
|---|---|---|
| muge | zeroshot_retrieval | 中文多模态图文数据集 |
| flickr30k | zeroshot_retrieval | |
| flickr8k | zeroshot_retrieval | |
| mscoco_captions | zeroshot_retrieval | |
| mscoco_captions2017 | zeroshot_retrieval | |
| imagenet1k | zeroshot_classification | |
| imagenetv2 | zeroshot_classification | |
| imagenet_sketch | zeroshot_classification | |
| imagenet-a | zeroshot_classification | |
| imagenet-r | zeroshot_classification | |
| imagenet-o | zeroshot_classification | |
| objectnet | zeroshot_classification | |
| fer2013 | zeroshot_classification | |
| voc2007 | zeroshot_classification | |
| voc2007_multilabel | zeroshot_classification | |
| sun397 | zeroshot_classification | |
| cars | zeroshot_classification | |
| fgvc_aircraft | zeroshot_classification | |
| mnist | zeroshot_classification | |
| stl10 | zeroshot_classification | |
| gtsrb | zeroshot_classification | |
| country211 | zeroshot_classification | |
| renderedsst2 | zeroshot_classification | |
| vtab_caltech101 | zeroshot_classification | |
| vtab_cifar10 | zeroshot_classification | |
| vtab_cifar100 | zeroshot_classification | |
| vtab_clevr_count_all | zeroshot_classification | |
| vtab_clevr_closest_object_distance | zeroshot_classification | |
| vtab_diabetic_retinopathy | zeroshot_classification | |
| vtab_dmlab | zeroshot_classification | |
| vtab_dsprites_label_orientation | zeroshot_classification | |
| vtab_dsprites_label_x_position | zeroshot_classification | |
| vtab_dsprites_label_y_position | zeroshot_classification | |
| vtab_dtd | zeroshot_classification | |
| vtab_eurosat | zeroshot_classification | |
| vtab_kitti_closest_vehicle_distance | zeroshot_classification | |
| vtab_flowers | zeroshot_classification | |
| vtab_pets | zeroshot_classification | |
| vtab_pcam | zeroshot_classification | |
| vtab_resisc45 | zeroshot_classification | |
| vtab_smallnorb_label_azimuth | zeroshot_classification | |
| vtab_smallnorb_label_elevation | zeroshot_classification | |
| vtab_svhn | zeroshot_classification |