LLM 使用指南

客户端

优点

界面统一: 可以通过统一的界面使用各种 LLM. 通过 API 接入各种 LLM 提供商, 可以访问不同的 LLM.
支持 MCP: 部分客户端支持 MCP.
参数可调: 可以自定义 Temperature/Top-P/最大上下文等参数.
离线可用: 客户端通常支持运行本地 LLM, 确保离线可用且数据安全.
开源透明: 部分 LLM 客户端采用开源许可.

缺点

需要 API: 会增加使用难度, 并产生额外成本. LLM 提供商的网页版通常可以免费使用, 而 API 则需要付费使用. 不过 API 价格通常较便宜, 而且用途更加广泛 (比如可以让翻译插件接入 LLM).
需要配置: 初次使用需要配置 LLM 提供商的 API 密钥, 增加了使用门槛.
硬件要求: 运行本地 LLM 需要强大的硬件.

MCP

MCP 是一种开源协议, 旨在以标准化的方式向 LLM 提供上下文信息.
LLM 可以与 MCP 服务器通信, 以拓展其功能.

MCP 服务器有以下部署方式:

远程部署：适用于网页爬虫/API 调用等通用功能.
本地部署：适用于文件系统访问/本地数据库操作等涉及敏感数据的功能, 确保离线可用且数据安全.

MCP Server Settings

点击上图右上角的 Search MCP 按钮, 即可快速添加常见 MCP 配置.

Cherry MCP Servers

后续便可用通过下面方式在会话中启用 MCP:

Enable MCP

本地 LLM

内存需求

参数规模/量化级别	FP16	Q8	Q4	Q2
7B	~16 GiB	~8 GiB	~4 GiB	~2 GiB
8B	~18 GiB	~9 GiB	~5 GiB	~3 GiB
13B	~29 GiB	~15 GiB	~7 GiB	~4 GiB
30B	~67 GiB	~34 GiB	~17 GiB	~9 GiB
70B	~156 GiB	~78 GiB	~39 GiB	~20 GiB

\[ \text{内存需求 (GiB)} = \frac{\text{参数数量} \times \text{量化位数 (B)}}{1024^3} \]

量化级别

量化级别	质量	速度	内存占用	适用场景
FP16	最高	慢	最大	对质量要求极高
Q8	很高	较慢	大	平衡质量和性能
Q4	良好	快	中等	最佳平衡点
Q2	一般	最快	最小	硬件受限场景

以 DeepSeek-R1-0528-Qwen3-8B 为例, 其参数量为 8B, 量化为 Q4_K_M.
通过上表可以推测出所需内存大概为 5 GiB, 实际显存使用量为 5.3 GiB.

参数

温度 (Temperature)

控制模型输出的随机性和创造性.

低温度: 模型倾向于选择概率最高的词, 输出更确定.
高温度: 增加低概率词被选中的机会, 输出更随机. 过高的温度可能导致输出内容不连贯 (逻辑性弱).

使用案例	温度
代码生成/数学解题	0.0
数据抽取/分析	1.0
一通用对话	1.3
翻译	1.3
创意类写作/诗歌创作	1.5

如果使用的是推理模型, 可以适当降低温度 (如 \(0.6\) ¹).

对于编码/数学类任务, 为了提高逻辑性和质量, 应该将温度设为 \(0\), 使其总是选择概率最高的词.

核采样 (Top-P)

影响模型考虑的候选词范围.

低核采样: 只考虑最可能的少数词. 输出容易理解.
高核采样: 考虑更多可能的词选择. 输出词汇更加丰富多样.

Token

Token 是 LLM 处理文本的基本单位², 也是 API 计费使用到的单位. 其与自然语言文本的换算关系大致为:

1 个英文字符 \(\approx\) 0.3 token.
1 个中文字符 \(\approx\) 0.6 token.

部分 LLM 客户端会显示精确的 token 数, 方便用户计算对话消耗的费用. 如果需要自行计算 token 数量, 则需要使用到相应模型的分词器 (tokenizer)³.

供应商

DeepSeek: 价格, 价格便宜, 非高峰时段使用有优惠.
OpenAI: 必须使用电话号码注册. 价格, 价格及其昂贵.
GitHub Models: GitHub 提供限制较严格的免费试用, 实际供应商为 Azure AI.
SiliconFlow: 必须使用电话号码注册. 有几个 7B-9B 的免费模型, 但是速率限制非常严格, 难以用于网页翻译.
OpenRouter.

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B#temperature ↩
可以理解为 LLM 所使用语言的词, 该语言非任何人类语言. ↩
不同模型的分词器并不相同. ↩