人工智能研发运营体系助力智能技术规模化应用
作者: 中国信息通信研究院云计算与大数据研究所 秦思思 曹峰 胡慧 来源: 人民邮电报 编辑: 蔺弦弦 时间:2023-01-19 14:15:37
典型MLOps流程示意图。
人工智能研发运营体系(MLOps)是人工智能(AI)工程化的重要组成,核心是面向AI模型全生命周期建设标准化的生产运营体系,推动模型生产从分散的小作坊模式过渡到规模化有序的工厂流水线模式,帮助组织提升AI落地效率和质量。当前MLOps以提高生产效率为主要目标,已在金融、IT等行业得到较广泛的落地,但组织在建设相关能力时仍存在内驱力不足、工具选型难、模型治理能力缺失等阻碍和问题。未来将通过综合提升MLOps自动化水平和平台化能力,构建更加系统化的模型治理和可信体系,打造更加自治化的MLOps生态,助力智能技术规模化应用。
MLOps概念渐清晰
定义内涵逐步清晰。MLOps是一套工程化方法,其连接模型构建团队和业务及运维团队,为AI模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织可规模化、高质效地持续生产AI模型。从管理层面,MLOps是面向人工智能项目的一套全链路管理体系,在该体系中既要加快模型生产速度,又要确保模型的安全性和有效性;从实施层面,MLOps是AI模型规模化生产的一组最佳实践,包括数据工程、特征工程、模型训练、持续集成、持续部署、持续监控、实验管理等,逐步为构建完备的AI基础设施而努力。
流程步骤逐步明确。AI模型项目生命周期通常包括需求设计、开发、交付和运营几个阶段,MLOps以持续集成、持续部署、持续监控和持续训练为核心,通过流水线的衔接将全生命周期构建成全流程闭环体系。数据工程目标是生产高质量数据,包括对源数据的处理、存储、分析等过程,MLOps在其中解决数据来源繁杂、数据及特征难共享、数据不统一等问题。模型开发目标是高效生产模型,包括模型训练、模型评估、模型选择等过程,MLOps在其中解决实验复现难、实验跟踪繁琐、反复实验成本高等问题。模型交付目标是向业务系统提供模型服务,包括模型集成、模型测试、部署发布等过程,MLOps在其中解决交付周期长、过程追溯难、自动化水平低等问题。模型运营目标是监控和维护模型于最佳状态,包括监控、反馈、更新等过程,MLOps在其中解决数据漂移、内容漂移、模型效果下降等问题。
国内外MLOps发展百花齐放
应用落地持续加速,成效显著。国外MLOps起步较早,应用广泛,包括IT、金融、电子商务、医疗、制造业等领域。国内主要集中于IT、金融、电信运营商等科技底座较为扎实的领域,落地场景涉及风控、营销、搜索、视觉识别等诸多细分场景。据咨询公司IDC预测,到2024年将有60%的中国企业通过MLOps来管理其人工智能生命周期。根据中国信息通信研究院调研数据,国内某IT企业通过应用MLOps使得开发周期缩短54%,测试周期缩短67%,人力成本缩减57%;某金融企业通过应用MLOps将模型上线周期从周缩短至天,将模型部署时间从小时级缩短至秒级。
工具市场持续活跃,种类繁多。咨询机构Cognilytica 2020年研究显示,MLOps市场规模将从2019年的3.5亿美元快速增长到2025年的40亿美元。当前全球MLOps工具丰富多彩,已超过300个,一类是MLOps端到端全流程平台,例如谷歌、微软、亚马逊、百度、华为、DataRobot、Algorithmia、Kubeflow、MLflow等;另一类是MLOps专项工具,对特定步骤提供更为集中的支持,包括数据处理、模型构建、运营监控等,工具能力更细分更丰富,例如Cloudera、DVC、DAGsHub、九章云极DataCanvas、第四范式等。
我国MLOps落地稳步推进
近年来,我国MLOps逐步在多个行业得到布局应用。从部署阶段来看,模型开发阶段的应用较为成熟,模型交付阶段的应用多数正在进行中,模型运营阶段的应用多数处于规划过程中。但是,在这个渐进式过程中,MLOps落地仍然存在阻碍和问题。
第一,落地内驱力不足。绝大多数组织已经认可落地MLOps带来的合规统一、效率提升、安全可信等同业竞争优势,外部驱动力逐渐增强。但是在内部落地时,仍面临内部驱动力不足的困难,主要体现在以下几个方面:一是短期内MLOps价值不明显、投入成本高,使得可行性分析难度增加;二是MLOps技术栈不清晰、组织自有AI能力和规模不确定、目标成熟度模糊,使得技术方案制定困难;三是组织结构固化,自上而下对MLOps认识不一,使得MLOps落地职责界定不清,协作困难。
第二,工具选型难、集成难。在MLOps工具市场蓬勃发展的现阶段,工具种类繁多、功能复杂,解决某一问题的工具往往有许多个,缺乏统一的能力标准。另外,尽管MLOps 开源工具占多数,但如何使用开源工具,如何将多个工具有效集成和打通,很大程度依赖于组织和人员的技术能力。这使得组织落地MLOps时面临解决方案难决策、平台难选取、工具链难集成等问题,导致难以实现MLOps落地的稳步推进。
第三,模型治理和可信道阻且长。各业务场景面临的风险大小和模型所需更新频次不同,不同类别模型所需的生产过程和风险等级亦不同。同时,模型面临的风险包括生产过程不可追溯、线上模型效果下降、模型存在偏见、推理结果不可解释、无法审计等。这些问题导致模型治理边界模糊、AI可信落地难,使得组织MLOps硬着陆且信心不足。
MLOps未来更趋于自治化
AI产业正在经历前所未有之大变革,通过MLOps提升AI模型生产效率和质量是大势所趋。当前MLOps的实现主要集中在规范化、模块化、自动化、流程化等方向,未来MLOps将朝着自治化的方向发展,围绕全流程自动化水平的提高、工具平台化能力的提升、AI可信治理体系的完善,加速智能技术的规模化应用,提高组织智能化转型的可持续发展能力。
MLOps流程自动化水平进一步提高。当前诸多MLOps实践过程中自动化水平不高。未来,模型测试、部署发布、监控运营、模型重训等流水线的自动化水平及流水线间的衔接效率将得到进一步提升。同时MLOps将与数据平台、管理平台及各业务平台等高效打通,并与各资产仓库进行有效对接,与各信息系统进行灵活调度,从而实现可持续的人工智能项目全生命周期管理能力和全链路自动化能力,提高组织落地MLOps的内驱力。
MLOps平台化能力持续提升。随着AI模型越来越多、业务需求越来越复杂,面临工具选型和集成难的问题,MLOps平台化能力将成为趋势,以帮助组织更体系化、更便捷、更灵活、更快速地使用MLOps助力产业升级。Gartner预测,到2026年将有80%的软件工程组织建立平台团队。未来,组织将通过端到端平台工具,或工具链加解决方案的方式,以平台化模式开展更大范围、更大规模的落地。
可持续发展成为MLOps长期目标。落地MLOps的短期目标通常是提升模型迭代能力及效率,且在诸多组织中得以实现。而长期目标是在效率提升的基础上更多地关注模型安全与风险。通过筑牢AI风险管理防线,提高AI治理能力,构建AI可信体系,为组织生产更加安全、更加可信、更加透明、更加合规、更加稳定、更加负责任的AI,帮助重塑各业务领域,助力组织可持续发展,将是未来持续探索的方向。