应用架构

大模型应用开发的核心特点之一是在榨干模型泛化潜力的同时，约束模型的不确定性。

架构层次

arch

一个成熟的 LLM 应用架构通常包含以下层次：

客户端层处理用户输入、流式渲染、状态管理。基于传统的前端 UI 技术，或者结合前沿领域的生成式 UI。

API 网关层统一入口，负责认证鉴权、限流计费、请求路由。网关对外暴露 OpenAI 兼容协议，对内代理到不同模型提供商。这一层使得应用代码不需要关心底层模型的变化。

路由层根据请求内容选择最合适的模型。路由策略可以是基于规则的（关键词匹配 → 小模型，复杂推理 → 大模型），也可以是基于模型的（用小模型判断任务复杂度，再路由到对应模型）。

缓存层拦截重复或相似的请求，直接返回缓存结果。语义缓存通过向量相似度匹配"意思相近"的问题，比精确匹配的缓存命中率高得多。

模型服务层执行实际的 LLM 推理。可以是自建的 vLLM/Ollama 服务，也可以是云端 API（OpenAI、Anthropic、Google）。每个模型有独立的健康检查和性能指标。

可观测层贯穿所有层次，记录每次请求的完整链路（输入→路由→模型→输出），用于质量评估、成本追踪和故障排查。这一层在 LLMOps 中详细讨论。

DSL

数据结构

算法模型

进程域

通用域

HTML

HTML trick

CSS

CSS trick

布局

JavaScript

语言基础

TypeScript

Web API

浏览器

React

Vue

工程化

Nodejs

SSR

架构

UI 平台

跨平台

Flutter

人机关系

安全

渲染基础

主流引擎

标准接口

Vulkan

着色器

光栅化管线

光线追踪管线

语言基础

模块系统

网络协议

SQL

sql 基础

MySQL

NoSQL

Milvus

存储引擎

集群

工程实践

代理

消息队列

分布式基础

共识算法

并发模型

微服务

缓存

健壮性

可观测性

QoS

可观测性

性能优化

高可用与容错

云原生

DevOps

质量控制

语言基础

系统开发

数据结构

电源管理

进程管理

中断管理

内存管理

文件管理

设备管理

驱动接口

网络实现

系统调用

视图系统

硬件基础

外设

总线设备

开发板

基本原理

语言基础

机器学习