evalscope_v0.17.0/evalscope.0.17.0/docs/zh/get_started/introduction.md

3.2 KiB
Raw Blame History

简介

EvalScope 是魔搭社区倾力打造的模型评测与性能基准测试框架为您的模型评估需求提供一站式解决方案。无论您在开发什么类型的模型EvalScope 都能满足您的需求:

  • 🧠 大语言模型
  • 🎨 多模态模型
  • 🔍 Embedding 模型
  • 🏆 Reranker 模型
  • 🖼️ CLIP 模型
  • 🎭 AIGC模型图生文/视频)
  • ...以及更多!

EvalScope 不仅仅是一个评测工具,它是您模型优化之旅的得力助手:

  • 🏅 内置多个业界认可的测试基准和评测指标MMLU、CMMLU、C-Eval、GSM8K 等。
  • 📊 模型推理性能压测:确保您的模型在实际应用中表现出色。
  • 🚀ms-swift 训练框架无缝集成,一键发起评测,为您的模型开发提供从训练到评估的全链路支持。

整体架构

EvalScope 架构图 EvalScope 架构图.

包括以下模块:

  1. 输入层
  • 模型来源API模型OpenAI API、本地模型ModelScope
  • 数据集标准评测基准MMLU/GSM8k等、自定义数据MCQ/QA
  1. 核心功能
  • 多后端评估

    • 原生后端LLM/VLM/Embedding/T2I模型统一评估
    • 集成框架OpenCompass/MTEB/VLMEvalKit/RAGAS
  • 性能监控

    • 模型插件支持多种模型服务API
    • 数据插件:支持多种数据格式
    • 指标追踪TTFT/TPOP/稳定性 等指标
  • 工具扩展

    • 集成Tool-Bench/Needle-in-a-Haystack/BFCL-v3
  1. 输出层
  • 结构化报告: 支持JSON/Table/Logs
  • 可视化平台支持Gradio/Wandb/SwanLab

框架特点

  • 基准数据集预置了多个常用测试基准包括MMLU、CMMLU、C-Eval、GSM8K、ARC、HellaSwag、TruthfulQA、MATH、HumanEval等。
  • 评测指标:实现了多种常用评测指标。
  • 模型接入统一的模型接入机制兼容多个系列模型的Generate、Chat接口。
  • 自动评测:包括客观题自动评测和使用专家模型进行的复杂任务评测。
  • 评测报告:自动生成评测报告。
  • 竞技场(Arena)模式:用于模型间的比较以及模型的客观评测,支持多种评测模式,包括:
    • Single mode:对单个模型进行评分。
    • Pairwise-baseline mode:与基线模型进行对比。
    • Pairwise (all) mode:所有模型间的两两对比。
  • 可视化工具:提供直观的评测结果展示。
  • 模型性能评测:提供模型推理服务压测工具和详细统计,详见模型性能评测文档
  • OpenCompass集成支持OpenCompass作为评测后端对其进行了高级封装和任务简化您可以更轻松地提交任务进行评测。
  • VLMEvalKit集成支持VLMEvalKit作为评测后端轻松发起多模态评测任务支持多种多模态模型和数据集。
  • 全链路支持:通过与ms-swift训练框架的无缝集成,实现模型训练、模型部署、模型评测、评测报告查看的一站式开发流程,提升用户的开发效率。