参数说明

执行 evalscope perf --help 可获取全部参数说明：

基本设置

--model 测试模型名称。
--url 指定API地址，支持/chat/completion和/completion两种endpoint。
--name wandb/swanlab数据库结果名称和结果数据库名称，默认为: {model_name}_{current_time}，可选。
--api 指定服务API，目前支持[openai|dashscope|local|local_vllm]。
- 指定为openai，则使用支持OpenAI的API，需要提供--url参数。
- 指定为dashscope，则使用支持DashScope的API，需要提供--url参数。
- 指定为local，则使用本地文件作为模型，并使用transformers进行推理。--model为模型文件路径，也可为model_id，将自动从modelscope下载模型，例如Qwen/Qwen2.5-0.5B-Instruct。
- 指定为local_vllm，则使用本地文件作为模型，并启动vllm推理服务。--model为模型文件路径，也可为model_id，将自动从modelscope下载模型，例如Qwen/Qwen2.5-0.5B-Instruct。
- 您也可以自定义API，请参考自定义API指南。
--port 本地推理服务端口，默认为8877，仅对local和local_vllm有效。
--attn-implementation Attention实现方式，默认为None，可选[flash_attention_2|eager|sdpa]，仅在api为local时有效。
--api-key API密钥，可选。
--debug 输出调试信息。

--rate 每秒生成的请求数量（并不发送请求），默认为-1，表示所有请求将在时间0生成，没有间隔；否则，我们使用泊松过程生成请求间隔。

在本工具的实现中请求生成与发送是分开的：
`--rate`参数用于控制每秒生成的请求数量，请求将放入请求队列。
`--parallel`参数用于控制发送请求的worker数量，worker将从请求队列获取请求并发送，且在上一请求回复后才发送下一请求。

--log-every-n-query 每n个查询记录日志，默认为10。
--stream 使用SSE流输出，默认为True。注意：需要设置--stream以测量Time to First Token (TTFT)指标；设置--no-stream将不使用流式输出。

--max-prompt-length 最大输入prompt长度，默认为131072，大于该值时，将丢弃prompt。
--min-prompt-length 最小输入prompt长度，默认为0，小于该值时，将丢弃prompt。
--prefix-length promt的前缀长度，默认为0，仅对于random数据集有效。
--prompt 指定请求prompt，一个字符串或本地文件，使用优先级高于dataset。使用本地文件时，通过@/path/to/file指定文件路径，例如@./prompt.txt。
--query-template 指定查询模板，一个JSON字符串或本地文件，使用本地文件时，通过@/path/to/file指定文件路径，例如@./query_template.json。
--apply-chat-template 是否应用聊天模板，默认为None，将根据url后缀是否为chat/completion自动选择。

--tokenizer-path 可选，指定分词器权重路径，用于计算输入和输出的token数量，通常与模型权重在同一目录下。
--frequency-penalty frequency_penalty值。
--logprobs 对数概率。
--max-tokens 可以生成的最大token数量。
--min-tokens 生成的最少token数量，不是所有模型服务都支持该参数，请查看对应API文档。对于vLLM>=0.8.1版本，需要额外设置--extra-args '{"ignore_eos": true}'。
--n-choices 生成的补全选择数量。
--seed 随机种子，默认为0。
--stop 停止生成的tokens。
--stop-token-ids 设置停止生成的token的ID。
--temperature 采样温度，默认为0。
--top-p top_p采样。
--top-k top_k采样。
--extra-args 额外传入请求体的参数，格式为json字符串，例如'{"ignore_eos": true}'。