# 简介 [EvalScope](https://github.com/modelscope/evalscope) 是魔搭社区倾力打造的模型评测与性能基准测试框架,为您的模型评估需求提供一站式解决方案。无论您在开发什么类型的模型,EvalScope 都能满足您的需求: - 🧠 大语言模型 - 🎨 多模态模型 - 🔍 Embedding 模型 - 🏆 Reranker 模型 - 🖼️ CLIP 模型 - 🎭 AIGC模型(图生文/视频) - ...以及更多! EvalScope 不仅仅是一个评测工具,它是您模型优化之旅的得力助手: - 🏅 内置多个业界认可的测试基准和评测指标:MMLU、CMMLU、C-Eval、GSM8K 等。 - 📊 模型推理性能压测:确保您的模型在实际应用中表现出色。 - 🚀 与 [ms-swift](https://github.com/modelscope/ms-swift) 训练框架无缝集成,一键发起评测,为您的模型开发提供从训练到评估的全链路支持。 ## 整体架构 ![EvalScope 架构图](https://sail-moe.oss-cn-hangzhou.aliyuncs.com/yunlin/images/evalscope/doc/EvalScope%E6%9E%B6%E6%9E%84%E5%9B%BE.png) *EvalScope 架构图.* 包括以下模块: 1. 输入层 - **模型来源**:API模型(OpenAI API)、本地模型(ModelScope) - **数据集**:标准评测基准(MMLU/GSM8k等)、自定义数据(MCQ/QA) 2. 核心功能 - **多后端评估** - 原生后端:LLM/VLM/Embedding/T2I模型统一评估 - 集成框架:OpenCompass/MTEB/VLMEvalKit/RAGAS - **性能监控** - 模型插件:支持多种模型服务API - 数据插件:支持多种数据格式 - 指标追踪:TTFT/TPOP/稳定性 等指标 - **工具扩展** - 集成:Tool-Bench/Needle-in-a-Haystack/BFCL-v3 3. 输出层 - **结构化报告**: 支持JSON/Table/Logs - **可视化平台**:支持Gradio/Wandb/SwanLab ## 框架特点 - **基准数据集**:预置了多个常用测试基准,包括:MMLU、CMMLU、C-Eval、GSM8K、ARC、HellaSwag、TruthfulQA、MATH、HumanEval等。 - **评测指标**:实现了多种常用评测指标。 - **模型接入**:统一的模型接入机制,兼容多个系列模型的Generate、Chat接口。 - **自动评测**:包括客观题自动评测和使用专家模型进行的复杂任务评测。 - **评测报告**:自动生成评测报告。 - **竞技场(Arena)模式**:用于模型间的比较以及模型的客观评测,支持多种评测模式,包括: - **Single mode**:对单个模型进行评分。 - **Pairwise-baseline mode**:与基线模型进行对比。 - **Pairwise (all) mode**:所有模型间的两两对比。 - **可视化工具**:提供直观的评测结果展示。 - **模型性能评测**:提供模型推理服务压测工具和详细统计,详见[模型性能评测文档](../user_guides/stress_test/index.md)。 - **OpenCompass集成**:支持OpenCompass作为评测后端,对其进行了高级封装和任务简化,您可以更轻松地提交任务进行评测。 - **VLMEvalKit集成**:支持VLMEvalKit作为评测后端,轻松发起多模态评测任务,支持多种多模态模型和数据集。 - **全链路支持**:通过与[ms-swift](https://github.com/modelscope/ms-swift)训练框架的无缝集成,实现模型训练、模型部署、模型评测、评测报告查看的一站式开发流程,提升用户的开发效率。