Skip to content

端到端 Agent 训练

在知识图谱中的位置:模块五 · 05_前沿趋势 · 第 2 节 难度:⭐⭐⭐ | 前置知识:RLHF/RL


1. 概述

端到端 Agent 训练是指直接训练 LLM 成为 Agent,而非通过 Prompt Engineering。代表技术:RLHF → GRPO → 端到端 Agent 训练。


2. 技术演进

监督微调 (SFT) → RLHF → DPO → GRPO → 端到端 Agent 训练
                人工偏好  直接偏好  小组奖励   环境反馈

关键突破

技术时间核心
RLHF2022人类偏好训练
DPO2023直接偏好优化
GRPO2024Group Relative Policy Optimization
RLVR2024环境反馈训练
端到端 Agent2025直接在环境中训练 Agent

3. 技术原理

3.1 RLVR 框架

环境(Agent 执行环境)
    ↓ reward
训练数据(状态 → 动作 → reward)

RL 训练 → 优化 Agent 策略 → 更好的 Agent

3.2 端到端 Agent 训练流程

1. 定义 Agent 环境(工具/奖励函数)
2. 收集 Agent 执行轨迹
3. 用 GRPO/RLVR 训练模型
4. 模型学会自主规划 + 工具调用
5. 迭代训练直到收敛

4. 影响

4.1 对 Agent 开发的影响

变化说明
Prompt Engineering 减少模型学会自主推理
框架简化Agent 能力内嵌到模型
训练成本上升需要 RL 基础设施
个性化 Agent可为特定任务微调

4.2 代表项目

项目描述
DeepSeek-R1用 GRPO 训练的推理 Agent
Qwen-Agent阿里端到端 Agent
Gemini 2.0Google 原生多模态 Agent
Claude 3.5Anthropic RL 训练

5. 参考资料