(rageval)= # RAGEval :::{toctree} :hidden: :maxdepth: 1 mteb.md clip_benchmark.md ragas.md ::: 本项目支持RAG和多模态RAG的独立评测(Independent Evaluation)和端到端评测(End-to-End Evaluation): - 独立评测方法:单独评测检索模块,其中检索模块评测指标包括指标包括 **命中率(Hit Rate)、平均排名倒数(Mean Reciprocal Rank, MRR)、归一化折扣累积增益(Normalized Discounted Cumulative Gain, NDCG)、准确率(Precision)** 等,这些指标用于测量系统在根据查询或任务排名项目方面的有效性。 - 端到端评测方法:评测RAG模型对给定输入生成的最终响应,包括模型生成答案与输入查询的相关性和对齐程度。从内容生成目标视角来评测可以将评测划分为**无参考答案**和**有参考答案**:无参考答案评测指标包括**上下文相关性(Context Relevance)、忠实度(Faithfulness)** 等;而有参考答案评测指标包括**准确率(Accuracy)、BLEU、ROUGE等**。 ```{seealso} RAG评测相关[调研](../../../blog/RAG/RAG_Evaluation.md) ``` 本框架支持使用[MTEB/CMTEB](mteb.md)进行文本检索模块的独立评测,使用[CLIP Benchmark](clip_benchmark.md)进行多模态图文检索模块的独立评测,以及使用[RAGAS](ragas.md)进行RAG和多模态RAG端到端生成评测。 ::::{grid} 3 :::{grid-item-card} MTEB/CMTEB :link: mteb :link-type: ref 进行检索模块的独立评测,支持embedding模型和reranker模型。 ::: :::{grid-item-card} CLIP Benchmark :link: clip_benchmark :link-type: ref 进行多模态图文检索模块的独立评测,支持CLIP模型。 ::: :::{grid-item-card} RAGAS :link: ragas :link-type: ref 进行RAG和多模态RAG端到端生成评测,且支持自动生成评测集。 ::: ::::