多模态

大模型正在从纯文本理解走向多模态感知——看图、听声音、看视频、生成图像和视频。多模态能力拓展了 LLM 应用的边界：文档 OCR 解析让 RAG 系统能处理扫描件和含图表的文档，视觉理解让 Agent 能"看"到屏幕内容并操作 GUI，语音交互让用户可以与 AI 自然对话。本章覆盖视觉理解、语音交互和媒体生成三个方向。

技术演进

多模态模型的演进经历了几个阶段。第一代是拼接式架构——图像通过独立的视觉编码器（如 CLIP）转换为向量，然后作为额外 token 拼接到文本序列中。这种方式简单但视觉和语言的理解是分离的。第二代是原生多模态架构——模型从头设计为同时处理文本和图像，使用统一的 Transformer 处理混合模态输入。GPT-4o 和 Claude 3.5 采用了这种架构，视觉理解能力大幅提升。

当前最前沿的方向是"任意到任意"（any-to-any）模型——输入可以是文本、图像、音频、视频的任意组合，输出也可以是任意模态。GPT-4o 的实时语音对话就是这种能力的体现：用户说话（音频输入），模型理解后生成回答（文本+音频输出），全程无需先转文字再处理。

应用场景

多模态能力在以下场景中已经开始落地：

文档智能：不再局限于文本型文档，视觉模型可以直接"阅读"扫描件 PDF、含图表的报告、手写笔记。这对 RAG 系统意义重大——企业文档库中大量内容是非结构化的视觉信息（发票、合同、设计稿）。

视觉 Agent：Agent 可以截图分析当前界面状态，决定下一步操作。Claude Computer Use、Cline 的 browser_action 就是视觉 Agent 的实现。

实时语音 Agent：用户通过语音与 AI 对话，AI 实时回复语音。这需要极低的端到端延迟（< 500ms），对模型的推理速度和音频处理能力提出很高要求。

内容创作辅助：AI 理解用户上传的图片或视频内容，辅助生成文案、描述、标签。电商场景中，AI 可以根据商品图片自动生成产品描述和营销文案。

工程挑战

多模态应用的工程复杂度远高于纯文本。图像和音频的 token 消耗远大于文本（一张图片可能等价于数百个文本 token），成本和延迟是关键瓶颈。多模态输入的预处理也需要额外的步骤——图像压缩、音频重采样、视频关键帧提取——这些都会增加系统复杂度。

上下文窗口的压力也更大。一次包含多张图片的对话可能迅速耗尽上下文窗口，需要更激进的压缩策略。多模态 RAG 系统还需要解决图文混合内容的分块和检索问题——一个包含文字和图表的文档应该如何切分？图表的语义如何向量化？

DSL

数据结构

算法模型

进程域

通用域

HTML

HTML trick

CSS

CSS trick

布局

JavaScript

语言基础

TypeScript

Web API

浏览器

React

Vue

工程化

Nodejs

SSR

架构

UI 平台

跨平台

Flutter

人机关系

安全

渲染基础

主流引擎

标准接口

Vulkan

着色器

光栅化管线

光线追踪管线

语言基础

模块系统

网络协议

SQL

sql 基础

MySQL

NoSQL

Milvus

存储引擎

集群

工程实践

代理

消息队列

分布式基础

共识算法

并发模型

微服务

缓存

健壮性

可观测性

QoS

可观测性

性能优化

高可用与容错

云原生

DevOps

质量控制

语言基础

系统开发

数据结构

电源管理

进程管理

中断管理

内存管理

文件管理

设备管理

驱动接口

网络实现

系统调用

视图系统

硬件基础

外设

总线设备

开发板

基本原理

语言基础

机器学习