专题:综合算力2024年第2期 人工智能促进数据中心绿色节能研究 陈晓朋许可欣梁宇栋 (1.华为技术有限公司,深圳518129; 2.中国信息通信研究院云计算与大数据研究所,北京100191) 摘要:为应对全球气候变化和实现绿色发展,我国提出碳达峰碳中和发展目标,绿色发展已成为数据中 心建设运营的主毅律.
基于人工智能争新一代信惠技术促进数据中心节能的理论与实践,分析了多种 人工智能技术在数据中心节能方面的应用.
在此基础上,提出了数据中心人工智能节能系统的部暑趋 势,并给出了以创新技术推动行业绿色节能发晨的思考与建议.
关键词:人工智能节能:绿色创新发展;机器学习;神经网络;物理机理模型 中图分类号:TP30;F124 文献标志码:A 引用格式:陈晓朋,许可欣,梁宇株,人工智能促进数据中心绿色节能研完[J].信息通信技术与政策, 2024 50( 2) :33-39. DOI : 10. 12267/j issn. 2096-5931. 2024. 02. 006 0引言 统运行能效,尚未考虑到多系统协同与联动.
通过AI 技术应用,可以保障数据中心能效优化由数据驱动,更 随着新一轮科技革命和产业变革的兴起,以数据 加有章可循,从面规范和促进我国数据中心节能提效.
为核心的生产要素、以数字技术为驱动力的新型生产 方式蓬勃发展,社会正快速步人数字经济时代.
数据 1绿色数据中心发展趋势 中心是发展数字经济的算力底座,也是数字化产业链 随着产业的规模发展,数据中心能耗成为社会广 的关键一环.
截至2023年6月,全国在用数据中心机 泛关注的话题.
对于从业者而言,实现数据中心的绿 架总规模超过760万标准机架,算力总规模达到 色化发展也是体现技术水平的重要方面”.
数据中心 197EFLOPS,位居全球第二,比2022年同期增长 是技术密集型产业,设备和系统技术复杂,对性能、安 30%.
与此同时,数据中心能耗问题日益凸显,在传 全要求较高,能耗也涉及多个方面.
因此,节能降碳是 统数据中心,产品级节能技术应用已接近天花板,且系 一项系统工程,涉及规划、设计、建设、运维等方面,任 统复杂、设备多,各设备间能耗影响关系错综复杂,难 一环节出现问题都会影响最终能效水平.
据统计,数 以用传统工程学公式模拟,加之传统控制方式各自为 据中心IT及网络设备在数据中心总耗电占比约为 政,作用已到极限.
在此背景下,数字化及人工智能 45%-50%,制冷设备占比约为30%-45%,制冷系统 (Artificial Intelligence,AI)技术是推动数据中心电能 耗电与选址地点、系统方案以及运行要求相关,并与当 利用效率(Power Usage Effectiveness PUE)预测和指 地全年气候变化息息相关;供配电设备约占10%- 标优化实践的重要基础工作.
基于专家经验的传统人 15%,供配电系统耗电通常以供电效率损失和配电损 工.PUE预测和能效优化基本着眼于单设备或者单系 耗为主,供配电架构确定后供电效率和损耗即确定,只 33
信息通信技术与政策 要其他系统用电就会有一定的损失”.
故PUE数值个PUE为1.59的典型传统数据中心能耗分布比例示 挖掘后,下一个阶段能效管理的核心命题则是“集电设备效率已接近或达到90%以上,配电损耗也难以 成”,需考察具体项目全生命周期、系统规划节能方案大幅降低,因此降低冷却系统能耗对提升该数据中心 能力,打造全栈节能能力是节能减碳未来主要创新发 发能效非常重要.
展趋势.
《新型数据中心发展三年行动计划(2021-2023 其他 高低压配电 3% 年)》提出新建大型及以上数据中心PUE降低到1.3 9% 以下,严寒和寒冷地区力争降低到1.25以下.
此外, 我国工业和信息化部通过创建国家绿色数据中心、国 家新型数据中心典型案例名单,引导企业建设发展绿 色集约型数据中心.
2023年,我国新建大型及以上数 制冷系统 据中心PUE降至1.3以下,全国最优水平达到1.08, 25% IT负载 能效水平逐步提升.
绿色低碳技术广泛应用,我国有 63% 120多个数据中心绿色低碳等级达到4A级以上 虽然新建大规模数据中心PUE设计及运行水平稳中 向好,但目前我国老、旧数据中心绿色技术应用及PUE 发展与欧洲、美国等国家和地区相比还存在一定的差 图1典型传统数据中心能耗分布实例 距.
数据显示,我国中、小规模数据中心PUE值普遍 偏高,各地政府及数据中心企业已经开始关注到这一 随着大数据、云计算技术不断演进,AI、物联网技 发展问题,主动探寻“老、旧、小、散“数据中心的节能 术的成熟,绿色数据中心对新一代信息技术应用进人 改造路径,相信未来在生产制造、通信、互联网、公共机 1快速发展阶段.
数据中心冷却系统是典型的多变量耦 构、金融、能源等重点领域将迎来老、旧数据中心改造 合非线性时变系统,各部件相互影响、制约.
针对冷却 浪潮.
系统末端负荷和室外环境变化,基于AI节能技术通过 2AI在数据中心节能方面的应用 监测运行参数(如温度、压力、流量、能耗等),获得全 面的温度场、速度场、压力场等参数,同时建立系统能 鼓励数据中心应用绿色先进技术.
一方面应在应 耗模型(如冷机、水泵、空调机等),可据此确定冷却系 用上效励数据中心采用高效系统,优先采购先进绿色 统不同运行工况下各部件的功率消耗.
大量数据通 技术产品,建设数据中心能源消耗在线监测平台,开展 过智能化运维平台进行聚合、分析,调整冷却系统运 数据中心能耗监测评估,从数据中心应用上实现节能: 行状态,为冷却系统运行适配提供建议.
最终根据 另一方面应在源头上引导数据中心高效利用清洁能源 需求侧负荷变化,优化各部件运行状态(如压缩机转 和可再生能源,深化数据中心绿色设计、施工、采购与 速、水泵转速、风机转速等)到系统最佳运行状态,从 运营管理,全面提高资源利用效率,从源头上实现减 而降低系统能耗.
碳.
除此之外,近年来也涌现出一批基于AI、大数 2.1技术应用及发展 据、物联网、仿真模拟的数字化新技术,可以优化机房 国际领先企业早在数年前就采用AI与数据中心 的冷/热气流布局,实现精确送风、热源快速冷却、冷源 运维相结合来优化能效、降低成本.
例如,谷歌数据中 设备精准自动调节,目前已在华为、阿里巴巴、百度、腾 心打造了专门的AI能力来自动管理其数据中心复杂 讯等企业大量应用,并取得了显著的节能效果.
的冷却设备.
该项目以谷歌DeepMind AI部门在2016 在数据中心运行过程中,能耗主要由IT设备、配年首次发布的工作成果为基础,开发的机器学习系统 电设备(配电损耗)和冷却系统构成,图1给出了一 可以收集有关冷却设备的运行数据,为工程师提供关 34
专题:综合算力 2024年第2期 于如何优化电力使用的建议.
该系统每5min会对数 业务模型 数学模型 领域算法 据中心内冷却设备运行参数进行“快照”,根据包括设 施温度、热泵运行状态等信息来决定采取哪些措施优 能耗优化 化电力消耗.
目前,共有8种机制可以确保该系统按 预期工作,如果出现问题,系统将快速回退到用于管理 数据应用 发布模型 实现模型 冷却系统的预定义自动化模式.
随着时间的推移,系 图2大数据分析步骤示意图 统收集并处理的数据越来越多,实现的节能效果也会 不断提高.
(1)深度神经网络算法 近年来,数据中心相关设备厂商、大型数据中心企 运用深度神经网络算法,可以有效描述一个包含 业开始探索将大数据、AI等技术运用于运维管理中 冷通道的数据中心气流和温度模式,将区域模型转换 (如提高数据采集的实时性和准确性,研究训练节能、 为状态空间模型并实时运行,因此该模型具有实时预 告警等数据模型,开展故障预测等),进一步提升运维 测能力,可以控制和优化数据中心的能源利用.
管理系统的服务能力和智能化水平”.
国内产业界在 以华为构建的从冷源到末端的AI能效优化能力 数据中心AI节能技术上也有多项研究:中国电信与华 为例,使用工况模拟仿真,模拟现网数据实现数据集的 为联合发布《PUE数字化技术白皮书》,以仿真与监测 扩充、数据密度的增加,补足由于现网数据不足、质量 多数据交互为冷却系统提供更优建议切人,论述了数 不佳的普遍缺陷,加强模型的适应能力与可靠性.
依 字化技术优化PUE的相关企业实践进展;开放数据中 靠大数据,采用深度神经网络算法,自动匹配精度最高 心委员会(Open Data Center Committee ODCC)发布的 的算法,并实现无码化建模.
通过计算机模拟训练出 《2023数据中心自适应AI节能白皮书》聚焦利用AI 冷却系统运行参数与能耗和机房温度之间的数学关 进行空调群控节能,从数据、算力、算法等方面进行了 系,从面指导数据中心冷却系统的运维,最终可实现 分析;ODCC发布的《数据中心制冷系统AI节能技术 PUE降低 8%~12%的优化效果.
及其应用白皮书》介绍了数据中心制冷系统AI节能技 将AI建模所涉及的参数分为控制参数、环境参数 术及其应用前景.
和过程参数三大类,模型训练算法原理如图3所示.
2.1.1基于机器学习的AI节能技术 控制参数:指系统可以直接设置、下发的参 基于机器学习的智慧运维算法是依靠大数据,采 数,如设备运行台数、冷机出水湿度设定、供回水压差 用深度神经网络或深度机器学习等AI算法,通过计 设定、冷却水出水温度设定、冷却塔逼近度等.
算机模拟训练出冷却系统运行参数与能耗和机房温 环境参数:指对系统能耗有强烈影响,但不受系统 度之间的数学关系,从而指导数据中心冷却系统的 影响的客观参数,如室外温湿度、业务负载等.
运维.
过程参数:指系统内部的一些观察参数,不能被直 如图2所示,基于大数据分析步骤包括:业务模型 接控制,但环境参数和控制参数变化时,会因这些参数 (基于业务的分析,获取相关的业务参数,并对参数进 的改变面明显发生变化的参数,如水泵频率、水流量、 行降维、降噪、清洗等处理);数学模型(选择适合业务 压力等.
的数据模型);领域算法(根据输人的参数选择可收敛 建模(构建训练):收集X(控制参数、环境参 的算法);实现模型(求出满足输出条件解,该解包括 数、过程参数)和能耗值y,灌人神经网络,计算参 对于制冷能耗的预测模型以及对应业务最优的决策模 数对能耗的系数矩阵,从面完成模型训练(主模型), 型);发布模型(将预测以及决策模型发布到节能优化 同时还需要找出过程参数受哪些参数影响,使用拟合 的平台系统中,以在线给出可以调优的决策模型);数 算法获取系数矩阵(子模型).
子模型不仅可以帮助 据应用(决策模型给出系统最优调优建议,并与控制系 提高主模型精度,还可以承载专家经验牵引,如冷却流 统对接,执行调优建议).
量在什么范围内安全、节能等.
35
信息通信技术与政策 此外,可以根据项目的特点和要求,由具有专业知 应的一组控制参数作为调优策略进行下发.
推理决策 识背景的业务专家通过模型生成服务平台进行控制参 步骤如图4所示.
推理决策过程如图5所示.
数、环境参数和过程参数的选择,以及配置这些参数与 基于制冷能耗预测模型,获取与制冷能耗敏感的 能耗之间的连接关系用于进行模型生成和训练.
特征值,利用特征值进行业务训练、给出业务预测模 在线推理阶段,使用遗传算法或者贪婪算法根据 型.
主要是保障业务运行服务等级协议(Service-Level 当前时刻环境变量同时将控制变量组合代入训练 Agreemem,SLA),如冷量保障等 生成的能耗-变量模型计算能耗值,选取能耗最低值对 最后,利用系统可调整参数作为输人,将制冷能耗 Object : y = min 热风 9 热量 冷量 冷却塔 冷风冷 板换 冷冻素 LCU IT机柜 冷饭 冷却塔数 冷却泵 板换数量、 冷冻泵数 度、送回风 空调选风置 控制参 业务单板热源 量、出水 数量 出水温度 量,总管 温度 压差 温差最大和 最小值 冷卸系统热源 环境参 个湿/湿度 IT能耗 过程参数 说量、温度 流量,温度 冷热通道温/提度 Object:y=f( =AxBC 神经网络计算转移矩阵 图3模型训练算法原理示意 计算 数据输入 计算每一 能耗结果 得到最优 及处理 数的组合 个组合的 排序 的群控参 方案 制冷能耗 数组合 图4推理决策步骤 参数名 最小值 最大值 搜索步长 板换运行数量/台 5 1 冷却聚运行数量/台 4 5 遍历出N种参数组合 冷却塔运行数量/台 5 5 冷冻泵运行数量/台 4 5 1 冷冻水供回水温差/C 6 10 0.2 冷却塔出水温度/C 9 12 0.2 板换冷冻水出水温度/C 10 13 0.2 图5推理决策过程 36 -
专题:综合算力 2024年第2期 预测模型、业务预测模型作为约束,利用寻优算法,获 统的传热和能耗模型,再依靠智能寻优算法以运维目 取调优参数组,然后下发到控制系统,实现制冷系统的 标求解出各设备运行参数,从面实现对系统的调优.
能耗调优.
腾讯在数据中心冷源系统AI调优上进行了实践 (2)深度机器学习算法 应用.
基于深度神经网络和支持向量回归算法构建设 在深度机器学习算法方面,可以通过控制供回风 备模型,通过选择合适的激活函数、调整损失函数以及 风机、冷却盘管等,来满足送风温度和相对湿度低于热 限制权重参数范围等方式增强模型的可解释性,使得 安全阔值要求的同时,最小化冷却能量(见图6).
惩 构建出来的模型满足暖通物理原理.
例如,在冷机功 罚权值有助于最优策略参数在满足其约束条件下有效 耗预测模型中,参考《美国采暖、制冷与空调工程师学 收敛.
可以从风冷数据中心收集元信息和真实数据轨 会应用手册》提出的冷水机组能耗模型表达式,将冷机 遗,对预测模型进行训练和验证”.
其次,使用在第一 冷冻侧温度、冷却侧温度以及IT负载等变量作为模型 步中验证过的模型来驱动离线训练,离线训练最终完 的输入参数,中间用全连接层连接网络模型,并使用线 成后的模型来控制优化数据中心制冷系统实际运行.
性整流函数激活函数拟合变量间的非线性关系,最终 深度强化学习可应用于联合IT设施的优化,包括 预测冷机功耗(目前模型的预测偏差可以控制在3% 负载感知的目标冷却、任务调度与IT设备优化,旨在 以内).
提高能源效率,同时确保数据中心热安全.
负载感知 同时,使用安全沙箱设置寻优约束准则,即安全沙 以响应动态IT工作负载,控制分配供风温度和流量为 箱的约束条件、配置都可以开放给现场的运维专 目标;任务调度,即完成在热动力学约束条件下优化调 家(见图7).
有了安全沙箱机制后,可实现AI逻辑受 度IT工作负载分配;最终联合控制IT和制冷系统,使 控和配置自由.
其达到理想的平衡,降低能耗,实现IT设施的优化,提 2.2数据中心AI节能系统部署趋势 高能源效率.
数据中心AI节能系统在实践中由集中式部署逐 2.1.2基于物理模型的AI节能技术 渐向“中心边缘”部署模式演进.
中心节点对应冷源 基于物理模型的智慧运维算法需首先建立冷却系 侧控制设备及软件平台,以数据中心为单元部署,通 PUE 数据中心PUE优化控制模型 在线推理模型 强化学习模型 .... 奖励/ 拟合子模型 拟合子模型N 确定性策略 惩罚 动作值函数 PUE拟合寻优模型 a 约束检测 约束检测 选择 a/a° 数据中心 图6深度机器学习算法流程 37 .