Appearance
端到端 Agent 训练
在知识图谱中的位置:模块五 · 05_前沿趋势 · 第 2 节 难度:⭐⭐⭐ | 前置知识:RLHF/RL
1. 概述
端到端 Agent 训练是指直接训练 LLM 成为 Agent,而非通过 Prompt Engineering。代表技术:RLHF → GRPO → 端到端 Agent 训练。
2. 技术演进
监督微调 (SFT) → RLHF → DPO → GRPO → 端到端 Agent 训练
人工偏好 直接偏好 小组奖励 环境反馈关键突破
| 技术 | 时间 | 核心 |
|---|---|---|
| RLHF | 2022 | 人类偏好训练 |
| DPO | 2023 | 直接偏好优化 |
| GRPO | 2024 | Group Relative Policy Optimization |
| RLVR | 2024 | 环境反馈训练 |
| 端到端 Agent | 2025 | 直接在环境中训练 Agent |
3. 技术原理
3.1 RLVR 框架
环境(Agent 执行环境)
↓ reward
训练数据(状态 → 动作 → reward)
↓
RL 训练 → 优化 Agent 策略 → 更好的 Agent3.2 端到端 Agent 训练流程
1. 定义 Agent 环境(工具/奖励函数)
2. 收集 Agent 执行轨迹
3. 用 GRPO/RLVR 训练模型
4. 模型学会自主规划 + 工具调用
5. 迭代训练直到收敛4. 影响
4.1 对 Agent 开发的影响
| 变化 | 说明 |
|---|---|
| Prompt Engineering 减少 | 模型学会自主推理 |
| 框架简化 | Agent 能力内嵌到模型 |
| 训练成本上升 | 需要 RL 基础设施 |
| 个性化 Agent | 可为特定任务微调 |
4.2 代表项目
| 项目 | 描述 |
|---|---|
| DeepSeek-R1 | 用 GRPO 训练的推理 Agent |
| Qwen-Agent | 阿里端到端 Agent |
| Gemini 2.0 | Google 原生多模态 Agent |
| Claude 3.5 | Anthropic RL 训练 |