端到端 Agent 训练

在知识图谱中的位置：模块五 · 05_前沿趋势 · 第 2 节难度：⭐⭐⭐ | 前置知识：RLHF/RL

1. 概述

端到端 Agent 训练是指直接训练 LLM 成为 Agent，而非通过 Prompt Engineering。代表技术：RLHF → GRPO → 端到端 Agent 训练。

监督微调 (SFT) → RLHF → DPO → GRPO → 端到端 Agent 训练
                人工偏好  直接偏好  小组奖励   环境反馈

技术	时间	核心
RLHF	2022	人类偏好训练
DPO	2023	直接偏好优化
GRPO	2024	Group Relative Policy Optimization
RLVR	2024	环境反馈训练
端到端 Agent	2025	直接在环境中训练 Agent

环境（Agent 执行环境）
    ↓ reward
训练数据（状态 → 动作 → reward）
    ↓
RL 训练 → 优化 Agent 策略 → 更好的 Agent

1. 定义 Agent 环境（工具/奖励函数）
2. 收集 Agent 执行轨迹
3. 用 GRPO/RLVR 训练模型
4. 模型学会自主规划 + 工具调用
5. 迭代训练直到收敛