evalscope/docs/zh/advanced_guides/custom_dataset/embedding.md

# Embedding模型

## 自定义文本检索评测

### 1. 构建数据集

构建如下格式数据：

```
retrieval_data
├── corpus.jsonl
├── queries.jsonl
└── qrels
    └── test.tsv
```

其中：
- `corpus.jsonl`: 语料库文件，每行一个json，格式为`{"_id": "xxx", "text": "xxx"}`，_id为语料库的id，text为语料库的文本。例如：
  ``` json
  {"_id": "doc1", "text": "气候变化正在导致更极端的天气模式。"}
  {"_id": "doc2", "text": "今天股市大幅上涨，科技股领涨。"}
  {"_id": "doc3", "text": "人工智能正在通过自动化任务和提供见解来改变各种行业。"}
  {"_id": "doc4", "text": "随着技术的进步，风能和太阳能等可再生能源变得越来越普及。"}
  {"_id": "doc5", "text": "最新研究表明，均衡饮食和定期锻炼可以显著改善心理健康。"}
  {"_id": "doc6", "text": "虚拟现实正在教育、娱乐和培训方面创造新的机会。"}
  {"_id": "doc7", "text": "由于环保优势和电池技术的进步，电动汽车越来越受欢迎。"}
  {"_id": "doc8", "text": "太空探索任务正在揭示关于我们的太阳系及其以外的新信息。"}
  {"_id": "doc9", "text": "区块链技术在加密货币之外还有潜在的应用，包括供应链管理和安全投票系统。"}
  {"_id": "doc10", "text": "远程工作的好处包括更大的灵活性和减少通勤时间。"}
  ```

- `queries.jsonl`: 查询文件，每行一个json，格式为`{"_id": "xxx", "text": "xxx"}`，_id为查询的id，text为查询的文本。例如：

  ``` json
  {"_id": "query1", "text": "气候变化的影响是什么？"}
  {"_id": "query2", "text": "今天股市上涨的原因是什么？"}
  {"_id": "query3", "text": "人工智能如何改变行业？"}
  {"_id": "query4", "text": "可再生能源有哪些进展？"}
  {"_id": "query5", "text": "均衡饮食如何改善心理健康？"}
  {"_id": "query6", "text": "虚拟现实创造了哪些新机会？"}
  {"_id": "query7", "text": "为什么电动汽车越来越受欢迎？"}
  {"_id": "query8", "text": "太空探索任务揭示了哪些新信息？"}
  {"_id": "query9", "text": "区块链技术在加密货币之外有哪些应用？"}
  {"_id": "query10", "text": "远程工作的好处是什么？"}
  ```

- `qrels`: 评测文件，可包含多个`tsv`文件，格式为`query-id doc-id  score`，query-id为查询的id，doc-id为语料库的id，score为语料库与查询的相关度打分。例如：
  ```
  query-id	corpus-id	score
  query1	doc1	1
  query2	doc2	1
  query3	doc3	1
  query4	doc4	1
  query5	doc5	1
  query6	doc6	1
  query7	doc7	1
  query8	doc8	1
  query9	doc9	1
  query10	doc10	1
  ```

### 2. 构建配置文件

编写的配置文件示例如下：
``` python
task_cfg = {
    "work_dir": "outputs",
    "eval_backend": "RAGEval",
    "eval_config": {
        "tool": "MTEB",
        "model": [
            {
                "model_name_or_path": "AI-ModelScope/m3e-base",
                "pooling_mode": None,  # load from model config
                "max_seq_length": 512,
                "prompt": "",
                "model_kwargs": {"torch_dtype": "auto"},
                "encode_kwargs": {
                    "batch_size": 128,
                },
            }
        ],
        "eval": {
            "tasks": ["CustomRetrieval"],
            "dataset_path": "custom_eval/text/retrieval",
            "verbosity": 2,
            "overwrite_results": True,
            "limits": 500,
        },
    },
}
```

**参数说明**

基本参数与[默认配置](../../user_guides/backend/rageval_backend/mteb.md#参数说明)一致，需要修改的参数有：
- `eval`:
  - `tasks`: 评测任务，必须为`CustomRetrieval`。
  - `dataset_path`: 数据集路径，为自定义数据集的路径。

### 3. 运行评测

运行下面的代码，即可开始评测：
```python
from evalscope.run import run_task

run_task(task_cfg=task_cfg)
```