平安数据中心高可用 运维白皮书 立安科技 中国平安 平安科技 PINGANTECHNOLOGY 2018年5月
前言 中国平安数据中心在十多年的发展过程中,遵从ITIL、ISO9001、 ISO20000、ISO27001、M&O等多个标准,不断制定、优化数据中心的工 作规范和指南,形成了一整套标准的运维体系.
数据中心运维团队依据标 准体系的指导,通过兢兢业业、一丝不苟的工作,保障了平安数据中心的 高可用性.
平安数据中心的高可用离开不员工的辛苦工作,以及各供应商的保障 支持,在此,特意向日夜奋战的员工和供应商进行特别的感谢.
为实现平安的企业社会责任,推动中国数据中心尤其是金融高可用数 据中心的运维管理的提升,平安数据中心团队总结十多年的运维经验,编 制了《平安数据中心高可用运维白皮书》旨在总结和分享平安数据中心在 打造高可用金融互联网数据中心的优秀经验,与行业内各专家同仁一道 为国家大数据时代建设贡献力量.
感谢中国数据中心工作组组长钟总、Uptime北亚区董事总监胡总对本 书的支持,感谢辛苦编制此书的作者.
本书若有错漏之处,恳请各位专家同行批评指正.
平安科技(深圳)有限公司数据中心著
序1 2009年,中国平安开始规划建设深圳观澜数据中心,我有幸作为这个项目的总设 计师,参与了整个项目的建设,见证了中国平安紧跟国家战略步伐,大力推进中国平安 信息化之路.
中国平安作为中国金融行业较早建设数据中心的企业,对数据中心的建设和运维 有着深刻理解,培育造就了一批数据中心领域的专家,为平安集团步入“金融互联网 3.0时代、为中国数据中心行业健康发展做出了突出贡献.
数据中心全生命周期包括:需求分析、规划设计、施工安装、检测验收、运维管理.
其中运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段,真可谓:三 分建设,七分管理.
运维管理参与设计和实施,从项目开始就将运维需求落实到设计和 实施中,其工作范围涵盖数据中心全生命周期,是通过科学运维管理,实现为业务提供 数据信息支持,实现企业发展目标的过程.
本书是平安人不忘初心、牢记使命、不断奋进、努力实践的结晶.
内容包括数据中 心运维标准化建设、组织架构、安全管理、运维实践和质量体系等.
本书凝聚了平安人对数据中心的热爱和孜孜以求的科学精神,感谢为此书出版付 出辛勤劳动的编写团队,希望大家能从此书中得到启迪和帮助.
钟景华 中国数据中心工作组(CDCC)组长 2018.5 安科 科
序2 标准,通过Tier|至IV的标记系统以用来表示数据中心的物理基础设施的可用性.
此 标准自问世以来,已被全球广泛的探用在各地数据中心的设计及建置之中.
或許当有人因业务需要说:我想要个数据中心.
就有人会转过身来说:我将为你建 数据中心.
但是却没有多说是否他们在谈论着同样的性能产出.
我常在一些场合里说: 一个数据中心的生命周期,在设计建置阶段可短至数月也有长到一至二年,但其运营却 长达十年或十几年.
因此要设计及建置符合营运目标及维运需求的数据中心才是Tier 标准的精神所在.
UptimeInstitute的每年行业调查数据均显示:有一半左右的企业IT组织曾在过去 12个月期间经历过他们自有数据中心影响业务的停机,也有近三分之一的企业IT组 织在前12个月内曾经历主机托管提供商的服务中断.
对于这些事件大多指向:操作员 的人为错误.
这种说法可能涵盖了程序的错误和资源的缺乏,或欠缺管理及不善决定.
而且这些责任常都是落到操作人员在未能及时救援成功的情况下.
其实大多数的情况,失败可以归因于高级管理层之决定(例如:设计妥协,预算削 减,裁减工作人员,供应商选择及资源的分配),其可溯自事件发生之前的时间和空间 的,警如:什么决定导致前线操作人员没有好的准备或未受过足够的训练,因此对事件 的反应作出处理不当的情况.
随着业务职能部门对数据需求不断的提高,如今的数据中心的IT和基础设施 利益相关者持续面临巨大的压力,在实现价值的同时还要维护成本和效率.
因此,数据 中心管理和运营Management&Operations(M&O)的评估认证是可以提供相关指导 和框架基础,也是推动实施数据中心有效的管理和运营的最佳实践.
数据中心管理及运营准则应是对内部小组、部门、文化和实践中都适用的.
其 相关于人员配置、组织和培训实践、预防性维护方案、运营条件,以及计划、管理和协 调实践和资源.
这一切不仅是对数据中心操作团队,也应包含服务供应商和领导层所应 负责的事务并为其提供了有用的信息.
今天在中国数据中心市场,欣见平安科技为平安集团发展企业数据中心运维规范 的白皮书,期待其能带给平安集团的数据中心工作同仁诸多帮助.
PhilipHu胡嘉庆 UptimeInstitute北亚区董事总监 May 2018
目录 第一章平安数据中心高可用运维白皮书介绍 1.1.数据中心高可用运维白皮书目的、实用范围 1.2.数据中心高可用运维白皮书内容及简介 第二章平安数据中心运维标准化建设 3 2.1.精细化管理理论和方法 3 2.1.1.精细化管理的概念、 2.1.2.精细化管理在数据中心运维中的应用 3 2.2.运维ITIL框架 2.2.1.事件管理 2.2.2.问题管理 6 2.2.3.变更管理. 6 2.3.UPTIMEM&O实践 7 2.3.1.人员组织.. 8 2.3.2.维护管理 6 2.3.3.培训管理 .10 2.3.4.计划、协调与管理 .10 2.3.5.运行状况 11 第三章数据中心安全管理 12 3.1.信息安全管理 12 3.2.物理安全管理 .13 3.2.1-物理安全配置 .13 3.2.2.术语及定义.
.13 32.3.程序 .14 3.2.4.人员进出登记制度 .15 3.2.5.物品进出管理 .17 3.2.6.消防安全管理制度 .17 3.3.人员安全管理 ..18 3.3.1.人员安全培训 ..18 3.3.2.日常运维安全管理. .19 第四章人员保障与发展 21