What is MLOps?

一套结合机器学习、DevOps 和数据工程的实践方法，用于在生产环境中可靠地部署、监控和维护 ML 模型。

Definition

MLOps（Machine Learning Operations，机器学习运维）是将 DevOps 原则——持续集成、持续交付、自动化、监控和基础设施即代码——应用于机器学习生命周期的学科。它弥合了 ML 实验（数据科学家在 notebook 中构建模型）与生产部署（模型必须以可衡量的质量大规模可靠地提供预测）之间的差距。

MLOps 涵盖整个 ML 生命周期：数据管道管理（摄取、验证、转换）、实验追踪（超参数、指标、工件）、模型训练自动化（可复现的训练管道）、模型注册表（训练模型的版本化存储）、部署（服务基础设施、A/B 测试、金丝雀发布）、监控（性能指标、数据漂移检测、质量告警）以及重新训练（当质量下降时触发模型更新）。

MLOps 生态系统包括综合平台（MLflow、Weights & Biases、Kubeflow、SageMaker）和各生命周期阶段的专用工具。工具的选择取决于团队规模、基础设施偏好（云端与本地）以及 ML 系统的复杂性。对于大语言模型微调而言，MLOps 的关注点包括跨运行追踪训练配置、管理模型工件（可能达数十 GB）、将模型部署到推理服务器后面，以及在生产环境中监控输出质量。

Why It Matters

绝大多数训练好的 ML 模型从未投入生产——估计比例在 60% 到 87% 之间。主要原因不是模型质量，而是运维差距：无法复现结果、缺乏部署自动化、没有质量退化监控，以及没有在模型过时时更新模型的流程。MLOps 的存在就是为了弥合这些运维差距，提高训练模型转化为生产资产的比率。

对于大语言模型微调团队来说，MLOps 尤为重要，因为迭代周期成本高昂。一次微调运行可能需要数小时，计算成本达数百美元。没有实验追踪，团队会重复配置。没有模型注册表，他们会丢失已部署模型版本的记录。没有监控，他们直到用户投诉才会发现质量回退。MLOps 将微调从临时的、手工式的过程转变为系统化、可重复的运营。

How It Works

典型的 MLOps 管道由数据变更（新训练数据可用）或定时间隔触发。它执行一系列步骤：数据验证（检查 schema 变更、缺失值和分布偏移）、预处理（应用在特征存储中注册的转换）、训练（运行带有追踪的超参数和指标的训练脚本）、评估（在留出的测试集上将新模型与当前生产模型进行比较），以及部署（如果新模型通过质量门控，则通过金丝雀发布进行部署）。

部署后的监控追踪服务指标（延迟、吞吐量、错误率）、模型质量指标（准确率、用户反馈、下游 KPI）和数据漂移（将传入请求的分布与训练数据分布进行比较）。当指标超过定义的阈值时触发告警，启动调查并可能进行重新训练循环。这种持续的反馈循环确保模型在外部环境变化时保持质量。

Example Use Case

一家金融科技公司每月使用更新的客户交互数据微调模型。他们的 MLOps 管道自动化了整个工作流程：数据验证标记数据质量问题，实验追踪记录每个训练配置，模型注册表存储每个训练模型及其评估指标，自动化 A/B 测试将新模型与现有模型进行比较，生产监控在响应质量低于阈值时发出告警。以前需要数据科学家每月工作两周的工作，现在自动运行，仅在检测到异常时才进行人工审查。