Skip to content

LLMOps

LLM 应用上线后最大的挑战是"怎么知道它答得好不好"。传统软件可以通过单元测试验证正确性,但 LLM 的输出是概率性的——同样的输入可能产生不同的输出,且输出质量是主观的。LLMOps 借鉴 MLOps 的思路,构建了评估、测试、观测的生产闭环,让 LLM 应用从"能跑的 demo"进化为"可信赖的生产系统"。

三大支柱

LLMOps 由三个相互支撑的环节组成:

评估(Evaluation)回答"好不好"的问题。通过评估框架、评估数据集和评估指标,量化 LLM 应用的输出质量。评估是迭代的起点——不知道当前效果如何,就无法判断改进是否有效。

测试(Testing)回答"会不会退步"的问题。Prompt 修改、模型升级、数据更新都可能引入回归。自动化测试流水线确保每次变更都有质量保障,不会让已解决的问题重现。

观测(Observability)回答"线上怎么样"的问题。全链路追踪记录每次请求的完整路径,成本追踪监控 Token 消耗和费用,性能监控关注延迟和吞吐量。观测数据驱动评估和测试的持续改进。

与传统 MLOps 的区别

LLMOps 和传统 MLOps 有关键差异。传统 ML 模型的输出是确定性的(分类标签、回归数值),评估指标明确(准确率、F1、RMSE)。LLM 的输出是非确定性的自然语言,评估需要处理"多种正确答案"和"质量的主观性"。

传统 ML 的部署是一次性的(训练→部署→服务),LLM 的部署是持续的(Prompt 迭代、模型切换、数据更新)。每次 Prompt 修改都相当于一次"模型更新",需要完整的测试和验证流程。

传统 ML 的监控关注数据漂移和模型退化,LLM 的监控还需要关注成本(Token 消耗可能意外暴增)、安全(Prompt 注入攻击)和合规(输出内容审查)。