应用架构
大模型应用开发的核心特点之一是在榨干模型泛化潜力的同时,约束模型的不确定性。
架构层次
一个成熟的 LLM 应用架构通常包含以下层次:
客户端层处理用户输入、流式渲染、状态管理。基于传统的前端 UI 技术,或者结合前沿领域的生成式 UI。
API 网关层统一入口,负责认证鉴权、限流计费、请求路由。网关对外暴露 OpenAI 兼容协议,对内代理到不同模型提供商。这一层使得应用代码不需要关心底层模型的变化。
路由层根据请求内容选择最合适的模型。路由策略可以是基于规则的(关键词匹配 → 小模型,复杂推理 → 大模型),也可以是基于模型的(用小模型判断任务复杂度,再路由到对应模型)。
缓存层拦截重复或相似的请求,直接返回缓存结果。语义缓存通过向量相似度匹配"意思相近"的问题,比精确匹配的缓存命中率高得多。
模型服务层执行实际的 LLM 推理。可以是自建的 vLLM/Ollama 服务,也可以是云端 API(OpenAI、Anthropic、Google)。每个模型有独立的健康检查和性能指标。
可观测层贯穿所有层次,记录每次请求的完整链路(输入→路由→模型→输出),用于质量评估、成本追踪和故障排查。这一层在 LLMOps 中详细讨论。