前言 数据中心设施运维,经常被与数据中心IT系统运维混为一谈。
实际上, 两者的工作虽然都以保证IT系统的可用性为最终目标,但在工作对象上,却 是截然不同的。
IT运维本质上是和比特(bit)打交道,设施运维则主要和瓦 特(Watt)打交道。
工作对象的不同,决定了工作方式也不可能完全一样。
鉴于机电系统的复 杂性,数据中心设施运维更像是一门经验性的学科。
所谓经验性学科,就是很 难坐在计算机前,靠科学计算就能找到的解决方案。
传统的设施运维更多 地依赖于久病成医,即犯了足够的错误以后,就可以把运维做得好些了。
当然,如果大家都愿意把自已犯的错误共享出来,就可以让整个行业受益, 毕竞,不是的雷都需要靠自己蹭出来的。
但是,要让行业的从业者分享自 己经历过的事故是很难的,因为每位数据中心的领导都希望外部认为自己的运 维是完美无缺的。
所以,我们很少看到对于一个数据中心事故的深度分析,更 多地是看到莺歌燕舞的正面报道。
本书首次突破这一行业习惯,这是第一部由行业运维精英们共同分享的真 实运维经历,其中记录了很多成功经验,但更多的是对控折和教训的反思,以 及惊心动皖的数据中心火灾救援过程。
这种第一手的经验,是很难通过传统的 教科书获得的。
前管 本书还是第一部以小说体写成的运维经理人手记。
当我们决定一起写这本 书时,大家都希望写一本能够让读者有阅读乐趣的书。
记得多年之前看过一 本书叫作《一分钟经理人》,这本书与其他的管理书相比较,最大的特点就是 可读性强。
为什么数据中心运维不可以有点乐趣呢?
所以,本书第一部分以 小说体的方式,来讲述运维经理和运维工程师在数据中心运维过程中可能会 经历的一些事情和过程。
我们设置了两个人物:Tom和Peter,在这两个人物 身上,可以看到运维人的影子。
当然,应该给他们这么洋的名字,还是更 还是觉得小学学数学的时候,已经受够了小明和小军了,所以还是选择了Tom 和Peter。
华为的喻茂萍总主动担纲第一章的写作,并且很快就写出了既充满专业知 识又具满满人文情怀的第一章,为整个第一部分的文风定了调。
来自招商银行、 中国联通、中国移动、中国电信等二十多家数据中心的其他专家们也都奉献了 自己宝贵的运维经验和感悟。
我发觉,很多平日里非常严谨的理工男女们,其 实都有一颗文学青年的心。
本书第二部分是请数据中心核心设备供应商从他们的角度来讲述数据中心 的主要设备在运维过程中需要注意的要点。
我们给出的场景设定如下:如果你 交付你的设备给运维团队,你希望给他们什么样的建议来更好地运维,以保持 你的设备拥有最佳的运行状态,并延长设备的生命周期。
非常感谢伊顿、施耐 德、中达、康明斯、南都等设备厂商的领导们可以站在用户角度看问题,重视 设备的运维,积极参与本书的写作。
来自工商银行的李崇辉老师和德拓天全的 曹洁老师负责第二部分的总体编审,做了大量的工作。
浙江电信的叶明暂老师 XI
D 从运维菜鸟到大咖,你还有多远 贡献了水冷空调的维护指南。
我们的群“数据中心设施运维百人会”中的 群友互动讨论帮助澄清了我们写作中的很多技术困惑。
还要特别感谢我中科仙络的同事们,尤其是负责本书排版编辑的王彤,文 字汇总编辑的闵谦,他们的辛勤工作使得本书能够如期完成。
还有毕业于清华 美院的插画作者顾众,地的作品为本书添色不少。
最后要感谢我太太及两位女 几,她们给予了我牵头写作本书极大的精神支持。
因为两位女儿都各自出了书, 背后还有我太太作为编辑给予支持,我才有信心启动这本书的写作工作。
数据中心运维是一项非常关键但又枯燥、重复性很高的工作。
在我们接触 过的运维团队中,见过不断挑战自我,追求精进的主动性运维组织;也见过把 运维看作出了问题再进行修补的被动性运维组织。
从短期来看,两种工作方式 的结果并无大的不同;但从长期来看,我们相信主动性组织一定会取得更加高 可用、高效率的运维结果。
希望本书有助于让数据中心高层管理者更加重视运 维,也希望数据中心运维的执行者能够从同业者的经验教训中获得一些收益。
程小丹 中科仙络咨询服务有限公司董事长 2016年1月31日 XII
目录 Part1 运维经理人手记 Chapter1 接手运维15 Chapter2 人员与组织21 Chapter3 网络运维133 Chapter4 培训与演练145 Chapter5 运维安全61 Chapter6 巡检73 Chapter7 维护87 Chapter8 操作流程99 Chapter9 应急处理113 Chapter 10 服务器上架129 Chapter11 高效运行1143 Chapter12 获得第三方认证1157
从运维菜...