LLMOps

LLM 应用上线后最大的挑战是"怎么知道它答得好不好"。传统软件可以通过单元测试验证正确性，但 LLM 的输出是概率性的——同样的输入可能产生不同的输出，且输出质量是主观的。LLMOps 借鉴 MLOps 的思路，构建了评估、测试、观测的生产闭环，让 LLM 应用从"能跑的 demo"进化为"可信赖的生产系统"。

三大支柱

LLMOps 由三个相互支撑的环节组成：

评估（Evaluation）回答"好不好"的问题。通过评估框架、评估数据集和评估指标，量化 LLM 应用的输出质量。评估是迭代的起点——不知道当前效果如何，就无法判断改进是否有效。

测试（Testing）回答"会不会退步"的问题。Prompt 修改、模型升级、数据更新都可能引入回归。自动化测试流水线确保每次变更都有质量保障，不会让已解决的问题重现。

观测（Observability）回答"线上怎么样"的问题。全链路追踪记录每次请求的完整路径，成本追踪监控 Token 消耗和费用，性能监控关注延迟和吞吐量。观测数据驱动评估和测试的持续改进。

与传统 MLOps 的区别

LLMOps 和传统 MLOps 有关键差异。传统 ML 模型的输出是确定性的（分类标签、回归数值），评估指标明确（准确率、F1、RMSE）。LLM 的输出是非确定性的自然语言，评估需要处理"多种正确答案"和"质量的主观性"。

传统 ML 的部署是一次性的（训练→部署→服务），LLM 的部署是持续的（Prompt 迭代、模型切换、数据更新）。每次 Prompt 修改都相当于一次"模型更新"，需要完整的测试和验证流程。

传统 ML 的监控关注数据漂移和模型退化，LLM 的监控还需要关注成本（Token 消耗可能意外暴增）、安全（Prompt 注入攻击）和合规（输出内容审查）。

DSL

数据结构

算法模型

进程域

通用域

HTML

HTML trick

CSS

CSS trick

布局

JavaScript

语言基础

TypeScript

Web API

浏览器

React

Vue

工程化

Nodejs

SSR

架构

UI 平台

跨平台

Flutter

人机关系

安全

渲染基础

主流引擎

标准接口

Vulkan

着色器

光栅化管线

光线追踪管线

语言基础

模块系统

网络协议

SQL

sql 基础

MySQL

NoSQL

Milvus

存储引擎

集群

工程实践

代理

消息队列

分布式基础

共识算法

并发模型

微服务

缓存

健壮性

可观测性

QoS

可观测性

性能优化

高可用与容错

云原生

DevOps

质量控制

语言基础

系统开发

数据结构

电源管理

进程管理

中断管理

内存管理

文件管理

设备管理

驱动接口

网络实现

系统调用

视图系统

硬件基础

外设

总线设备

开发板

基本原理

语言基础

机器学习