Skip to content

多模态

大模型正在从纯文本理解走向多模态感知——看图、听声音、看视频、生成图像和视频。多模态能力拓展了 LLM 应用的边界:文档 OCR 解析让 RAG 系统能处理扫描件和含图表的文档,视觉理解让 Agent 能"看"到屏幕内容并操作 GUI,语音交互让用户可以与 AI 自然对话。本章覆盖视觉理解、语音交互和媒体生成三个方向。

技术演进

多模态模型的演进经历了几个阶段。第一代是拼接式架构——图像通过独立的视觉编码器(如 CLIP)转换为向量,然后作为额外 token 拼接到文本序列中。这种方式简单但视觉和语言的理解是分离的。第二代是原生多模态架构——模型从头设计为同时处理文本和图像,使用统一的 Transformer 处理混合模态输入。GPT-4o 和 Claude 3.5 采用了这种架构,视觉理解能力大幅提升。

当前最前沿的方向是"任意到任意"(any-to-any)模型——输入可以是文本、图像、音频、视频的任意组合,输出也可以是任意模态。GPT-4o 的实时语音对话就是这种能力的体现:用户说话(音频输入),模型理解后生成回答(文本+音频输出),全程无需先转文字再处理。

应用场景

多模态能力在以下场景中已经开始落地:

文档智能:不再局限于文本型文档,视觉模型可以直接"阅读"扫描件 PDF、含图表的报告、手写笔记。这对 RAG 系统意义重大——企业文档库中大量内容是非结构化的视觉信息(发票、合同、设计稿)。

视觉 Agent:Agent 可以截图分析当前界面状态,决定下一步操作。Claude Computer Use、Cline 的 browser_action 就是视觉 Agent 的实现。

实时语音 Agent:用户通过语音与 AI 对话,AI 实时回复语音。这需要极低的端到端延迟(< 500ms),对模型的推理速度和音频处理能力提出很高要求。

内容创作辅助:AI 理解用户上传的图片或视频内容,辅助生成文案、描述、标签。电商场景中,AI 可以根据商品图片自动生成产品描述和营销文案。

工程挑战

多模态应用的工程复杂度远高于纯文本。图像和音频的 token 消耗远大于文本(一张图片可能等价于数百个文本 token),成本和延迟是关键瓶颈。多模态输入的预处理也需要额外的步骤——图像压缩、音频重采样、视频关键帧提取——这些都会增加系统复杂度。

上下文窗口的压力也更大。一次包含多张图片的对话可能迅速耗尽上下文窗口,需要更激进的压缩策略。多模态 RAG 系统还需要解决图文混合内容的分块和检索问题——一个包含文字和图表的文档应该如何切分?图表的语义如何向量化?