Skip to content

多模态 Agent

在知识图谱的位���置:模块五 · 05_前沿趋势 · 第 5 节 难度:⭐⭐ | 前置知识:Agent 基础


1. 概述

多模态 Agent是能理解和处理文本、图像、音频、视频的 Agent。

2025 年关键突破:模型不再是纯文本,而是原生多模态。


2. 多模态 Agent 能力

模态能力代表模型
文本理解/生成文本所有模型
图像看图、识图、生成图GPT-4o, Claude
音频听、说、分析音频GPT-4o, Gemini
视频理解视频内容GPT-4o, Sora
3D理解 3D 场景Sora 3D, NVIDIA

3. 技术原理

3.1 多模态融合


4. 应用场景

场景多模态能力
视觉 Agent看图理解、截图分析
语音 Agent语音交互、会议记录
视频 Agent视频分析、剪辑
医疗 Agent医学影像分析
工业 Agent缺陷检测

5. 参考资料