LLM
2026年1月29日大约 1 分钟
LLM
数据准备
- 收集语料(通用文本、领域文本、指令数据)
- 数据清洗(去重、脱敏、格式化)
- 划分数据集(Pretrain / SFT / Eval)
Tokenizer 训练
- 训练 BPE / SentencePiece / WordPiece
- 生成 vocab 和 model 文件
- 测试 tokenizer 正确性
预训练(Pretrain)
- 初始化 Transformer 模型权重(随机或加载预训练)
- 配置模型参数(层数、hidden size、seq_len)
- 数据加载与 batching
- 模型训练(CrossEntropy Loss,自监督)
- 保存中间和最终权重
监督微调(SFT)
- 使用指令数据或人类示范数据
- 仅微调输出头或全模型
- CrossEntropy Loss 对 assistant 输出计算
- 保存 SFT 权重
奖励模型训练(可选)
- 收集对比数据(好/差回答)
- 训练 reward 模型预测人类偏好
- 用于 RLHF / DPO
强化学习微调(RLHF / DPO / PPO)
- 加载 SFT 模型作为 reference policy
- 通过 reward 最大化进行微调
- KL 正则约束模型不偏离 SFT
- 保存 RL 微调权重
评估与测试
- 指令遵循测试
- 对话质量评估
- 安全和拒答测试
- 性能和推理速度测试
部署
- 转换模型格式(GGUF / ONNX / TorchScript)
- 构建推理接口(API / Web UI)
- 上线监控和日志采集

思 维 教程: