Appearance
第零章 · RAG 技术全景图谱
目标:建立 RAG 技术演进的全景视角,理解 GraphRAG 在 RAG 家族中的定位。
0.1 RAG 技术演进时间线
2022 2023 2024 2025 2026
| | | | |
基础RAG → 高级RAG ← GraphRAG ← Agentic RAG ← Multimodal RAG / LongRAG ←
(混合检索) (微软开源) (ReAct框架) (多模态统一检索) (产业深化)
BM25+向量 社区检测 多步推理 跨模态嵌入 LazyGraphRAG
重排序 全局搜索 动态路由 图文融合 工程化落地三大发展阶段
| 阶段 | 时间 | 核心特征 | 代表技术 |
|---|---|---|---|
| 基础 RAG | 2023 | 向量检索 + 直接生成 | LangChain 早期实现 |
| 高级 RAG | 2024 | 多路检索、重排序、查询优化 | LlamaIndex、Haystack、混合检索 |
| 智能 RAG | 2025–2026 | Agentic RAG、图式检索、自适应学习 | GraphRAG、Agentic RAG、LongRAG |
0.2 RAG 技术分支知识图谱
┌──────────────────────────────────────────┐
│ 前沿 RAG 技术全景 │
└──────────────┬───────────────────────────┘
┌───────┼───────┐
┌───────┐ │ │ ┌───┤───┐
│ │ │ │ │ │ │
┌─────▼──┐ ┌──▼──┐ │┌───▼───┐│┌─▼──┐ ┌──▼───┐
│Hybrid │ │Graph│││Agentic│││Multi │ │ Long │
│ RAG │ │ RAG │││ RAG │││modal │ │ RAG │
└─────┬──┘ └──┬──┘│└───┬───┘│└──┬──┘ └──┬───┘
│ │ │ │ │ │
┌─────┴─────┐ ┌┴──┐ │┌───▼──┐ │┌───▼──┐ ┌───▼────┐
│ BM25 稀疏 │ │实体│││动态决策│││多模态│ │长上下文 │
│ Dense 向量 │ │关系│││多步推理│││图文统一│ │长单元处理│
│ RRF 融合 │ │社区│││工具调用│││医疗/ │ │生产部署 │
│ Cross-Encoder│ │Lazy│││人在回路│││工程早期│ │研究阶段 │
│ │ │Graph│││ │││应用 │ │ │
└──────────┘ └─────┘└┴───────┘└──────┘ └────────┘
│ │
┌───┴─────┐│
│ │└────┐
│ 微软GraphRAG │ │AutoGen │
│ FastGraphRAG│ │多代理 │
│ LazyGraphRAG│ │协作 │
└──────────┘ └──────┘0.3 五大技术分支概览
3.1 Hybrid RAG(混合检索)—— ⭐⭐⭐⭐⭐ 生产成熟度最高
核心价值:召回率全面提升 5-10 个百分点
生产成熟度:⭐⭐⭐⭐⭐(生产标准,几乎所有企业场景适用)
- BM25 稀疏检索:关键词精确匹配,处理产品编号、合同编号等
- Dense Vector 检索:语义相似度搜索
- RRF 互惠排名融合:无需分数量纲对齐,只用排名信息
- Cross-Encoder 重排序:对 TopK 候选做联合编码二次评分
效果数据:
- 错误减少率 35-60%(综合基准 vs 单一检索)
- NVIDIA 金融文件事实忠实度 96%
- LinkedIn 集成知识图谱混合检索:MRR 提升 77.6%
3.2 GraphRAG(图谱增强 RAG)—— ⭐⭐⭐⭐ 生产成熟度
核心价值:多跳推理准确率 ×3,跨文档全局洞察
生产成熟度:⭐⭐⭐⭐(需注意成本,LazyGraphRAG 已大幅缓解)
微软 GraphRAG 索引流水线:
原始文档 → 文本分块 → 实体抽取(LLM) → 关系抽取(LLM) → 实体消歧/合并
→ 构建知识图谱 → Leiden社区检测 → 社区摘要生成(LLM)三种查询模式:
| 模式 | 适用查询 | 机制 |
|---|---|---|
| Local Search | "X 是什么?" | 实体匹配 → 邻居扩展 → 联合上下文生成 |
| Global Search | "数据集的主题?" | 社区摘要 → Map-Reduce 聚合 |
| DRIFT | 复杂多步查询 | 社区概览 → 生成子查询 → Local 深入 |
LazyGraphRAG(2024.11 微软发布):
| 指标 | 传统 GraphRAG | LazyGraphRAG |
|---|---|---|
| 索引成本 | 高(LLM 全量) | 降低 99.9%,≈ 向量 RAG |
| 查询成本 | 高 | 全局搜索降低 700x+ |
| 工程可行性 | ⭐⭐ | ⭐⭐⭐⭐⭐ |
3.3 Agentic RAG(代理增强 RAG)—— ⭐⭐⭐ 谨慎采用
核心价值:复杂多步骤自动化,动态检索策略
生产成熟度:⭐⭐⭐(90% 生产失败率,需格外谨慎)
- LangGraph:图编排多代理工作流
- LlamaIndex AgentQueryEngine:代理工作流引擎
- Microsoft AutoGen:多代理协作框架
为什么 90% 生产失败:
- 链式失败累积:每步 95% × 10 步 = 59.9%
- 调试不确定性:每次运行路径不同
- 成本/延迟爆炸:多次 LLM 调用
- 过度工程化:不需要 Agent 却强行上
3.4 Multimodal RAG(多模态 RAG)—— ⭐⭐ 早期采用
- 多模态嵌入:CLIP 系列等,文本/图像统一向量空间
- LLM 图像摘要:GPT-4V/GPT-4o,图像→文字→统一向量检索
3.5 LongRAG(长上下文 RAG)—— ⭐⭐ 研究阶段
- 核心问题:短块切割导致语义不完整
- 解法:4K token 长单元 + 超长上下文 LLM 阅读器
0.4 向量数据库选型
| 特性 | Milvus | Weaviate | Pinecone | Qdrant | pgvector |
|---|---|---|---|---|---|
| 类型 | 开源 | 开源+托管 | 完全托管 | 开源 | PG扩展 |
| 规模上限 | 十亿级 | 中大型 | 自动扩展 | 中大型 | 取决于PG |
| P50延迟 | <10ms | 较高 | 20-50ms | 20-50ms | 竞争力强 |
| 混合搜索 | 有限 | 最强 | 基本 | 良好 | 需扩展 |
| 成本 | 完全控制 | 灵活 | 按量偏贵 | 低成本 | 最低 |
快速决策矩阵
| 需求 | 推荐 |
|---|---|
| 无运维需求、严格 SLA | Pinecone |
| 强混合搜索(向量+关键词+元数据) | Weaviate |
| 十亿级规模、完全控制 | Milvus |
| 已有 PostgreSQL | pgvector/pgvectorscale |
| 原型/轻量应用 | Chroma |
0.5 框架选型
| 功能 | LlamaIndex | LangChain/LangGraph |
|---|---|---|
| 数据管道 | LlamaParse(90+ 格式) | 通用文档加载器 |
| 混合检索 | 原生 BM25+向量+Cross-Encoder | 需集成 |
| 检索优化 | 语义分块、语义分片 | 通用检索器 |
| 工作流 | Workflows 1.0 | LangGraph |
| 适用场景 | RAG 数据管道、检索优化 | 多代理复杂工作流 |
0.6 RAG 技术选型决策树
你的 RAG 需求是什么?
│
├─ 纯文本知识库/FAQ
│ └──► Hybrid RAG(BM25+向量+RRF)
│ └──► 向量库:pgvector / Qdrant / Chroma
│ └──► 框架:LlamaIndex
│
├─ 需要跨文档关联/多跳推理
│ ├─ 文档规模小、成本充裕
│ │ └──► GraphRAG(微软)
│ ├─ 文档规模大、需控制成本
│ │ └──► LazyGraphRAG
│ └──► 图数据库:Neo4j / FalkorDB
│
├─ 需要复杂多步骤决策
│ ├─ 场景明确、边界清晰
│ │ └──► Agentic RAG(LangGraph)
│ ├─ 多 Agent 协作
│ │ └──► Microsoft AutoGen
│ └──► ⚠️ 加 HITL(人在回路)节点
│
├─ 文档含大量图像/图表
│ └──► Multimodal RAG(CLIP / GPT-4V)
│
├─ 需要长文档完整理解
│ └──► LongRAG(4K token + 超长上下文 LLM)
│
└─ 不确定
└──► 先用 Hybrid RAG 打底
└──► 接入 RAGAS 评估
└──► 根据指标缺口渐进升级0.7 生产级 RAG 系统架构
┌──────────────────────────────────────────────┐
│ 生产级 RAG 系统架构 │
├───────────────┬──────────────────────────────┤
│ 离线流(索引) │ 在线流(查询) │
│ │ │
│ ┌─文档加载 │ ┌─用户查询 │
│ ┌─解析/清洗 │ ┌─查询改写 │
│ ┌─分块 │ ┌─多路检索 │
│ ┌─向量化 │ ┌─重排序/融合 │
│ ┌─向量数据库 │ ┌─Prompt构建 │
│ │ ┌─LLM生成 │
│ │ ┌─引用+输出格式化 │
├───────────────┴──────────────────────────────┤
│ 支撑层 │
│ ┌─评估(RAGAS) ┌─监控 ┌─权限 ┌─缓存/同步 │
└───────────────┴──────────────────────────────┘0.8 行业落地案例
| 行业 | 案例 | 方案 | 成果 |
|---|---|---|---|
| 金融 | Morgan Stanley | Agentic RAG | 98% 采用率,准确率 +80% |
| 金融 | NVIDIA | Graph+Vector | 金融文件事实忠实度 96% |
| 金融 | SEC 文件 | GraphRAG | 市场影响分析更深入 |
| 法律 | LexisNexis | RAG 工具 | ⚠️ 幻觉率 17-33% |
| 医疗 | IBM Watson | 治疗建议 | 匹配率 96% |
| 医疗 | MMed-RAG | 医疗多模态 | 事实准确率 +43-47% |
| 企业 | 图谱+混合检索 | MRR +77.6% | |
| 企业 | PwC | Agentic RAG | 自动化 80% 税务合规 |
0.9 关键技术风险提示
| 风险 | 说明 | 缓解措施 |
|---|---|---|
| 数据质量 | Bad input → Bad output | 严格数据清洗和验证 |
| 分割噪声 | 语义断裂导致检索失效 | 语义分块、长上下文 |
| 幻觉 | 法律场景高达 33% | 人工复核 + 评估体系 |
| 文档投毒 | BadRAG / TrojanRAG 攻击 | 检索层安全检测 |
| 90% Agentic 失败率 | 链式失败累积 | 小步快走、限定边界 |
| GraphRAG 成本 | 索引成本极高 | 优先用 LazyGraphRAG |
| 安全访问控制 | 企业私有知识隔离 | RBAC + 数据分级 |
0.10 推荐学习路径
入门
│
▼
基础 RAG(向量检索 + 生成)
│
▼
Hybrid RAG(BM25 + 向量 + RRF)
│
▼
查询优化(SubQuery / Decomposition)
│
▼
重排序(Cross-Encoder / Reranker)
│
├── 进阶:GraphRAG / LazyGraphRAG
├── 进阶:Agentic RAG(限定场景)
├── 进阶:Multimodal RAG
└── 进阶:LongRAG
│
▼
评估体系(RAGAS / LlamaIndex 评估)
│
▼
生产级部署(监控 / 缓存 / 权限 / CI/CD)一句话总结:混合检索是现在,GraphRAG 是进阶,Agentic RAG 是未来但要谨慎,评估体系贯穿始终。