首页 -> 新闻中心 -> 云计算 -> 正文
中国移动通信有限公司研究院技术经理张晓光:大规模云计算交付中的硬件管理规范化
2020-09-17

中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日智能监控与管理分论坛上,中国移动通信有限公司研究院技术经理张晓光发表了以《规模云计算交付中的硬件管理规范化》为主题的精彩演讲。

大家好!很高兴来到这个论坛和大家分享,我是来自中国移动的张晓光。我演讲的主题是《大规模云计算交付中的硬件管理规范化》,这个主题跟前面几位演讲嘉宾的主题有些角度上的差异。

目前5G建设是国家在新基建方面一个重要建设主题,中国移动新的5G建设跟传统的网络建设有很大差异,其中一个最重要方面是当前我们是用云资源池方式来承载4G、5G网源业务,这里就存在云化转型问题。

具体怎么说这个问题呢?大家如果了解通信行业知道,过去在使用类似软硬件一体化的设备,通过这种设备来承载一些功能,比如EPC、IMS功能。但是5G建设中采用云化以后,变成资源池承载的模式,这带来了几方面变化:第一,软硬件形态的提供方式,从过去软硬件一体化的方式变成了资源池+上面运行软件的方式。第二,过去因为是软硬件一体化,所以很多连接都相当于是内部背板和背板之间的连接,到了云化之后的网络变成了服务器和网络设备、虚拟机之间的网络通信问题。另外,传统网源内部软件架构也发生了很大变化,它承载云资源池上各个模块间的通信,架构发生很大变化。

具体打开细化说下这个软件架构,右边是类似IT分层软件架构,包含底下的硬件层,包含中间虚拟化平台层,包含上面的软件业务。在这个架构中可以看到两个突出特点:第一个特点,它包含很多供应商,从底下硬件层涉及到很多服务器提供上、分布式存储提供商、各类网络设备提供商,到中间平台层有我们的虚拟化层管理、硬件设备的管理,到上面各类通信类网源业务需要我们的编排器拉起,一个网络建设至少10多家参加,这是一个突出特点。第二个特点,现在网络规模非常大,对应云资源池的规模非常大,以目前建设规模来说,当前已经建设近7万台服务器,在大规模情况下中间一定存在大规模交互问题。如何解决大规模交互集成问题?我们给出的答案是只有通过自动化方式才能够把以上两个问题很好解决。

自动化能够给我们带来两方面好处:第一,关于集成效率的提升,多厂商、规模大的困境,通过自动化可以使效率得到提升,减少人工交互投入。第二,通过自动化可以实现质量提升,做到全量对设备进行配置、检查等等功能,而且能实现公平公正的检查。

但是我们知道,每个公司都在提自动化的能力,自动化能力说起来容易,但实际做起来有很多问题,比如不同企业在技术积累、企业文化、企业流程这些因素都会制约自动化实施以及实施后的效果,但其中最重要的是关于标准化和规范化问题,因为只有做到标准化和规范化,才能够为自动化提供坚实的基础。

我今天重点跟大家分享关于我们在实践过程中的几个为自动化服务的标准化和规范化内容:

在服务器方面,中国移动是比较早推动服务器管理接口标准化的单位,现在做大规模集成交互过程中面临的架构是这样的,通过自动化工具对各种各样的服务器进行连接、配置和检查,这是一个大规模情况。这其中可以看到工具和服务器交互过程需要一个标准化的问题,比如针对BMC做配置、IP、版本检查,针对BIOS配置项做检查、针对服务器规格做检查,所有这一切依赖接口,但是各个厂商实现的接口五花八门。中国移动制定了Redfish接口包含七大类180多项指标,服务器自动化检查目前依赖Redfish统一接口的要求。

另外,大规模交付过程中现场过程中面临的很大问题是配置很多设备,比如服务器配置、交换机配置,这个工作量在交付过程中占有相当长工期。中国移动根据自己的需求预配自己的需求,把以往设备商需要在现场配置的内容移到出厂时的预配置,这里包含两方面内容:第一方面,服务器自动化配置,其中一个是来源于我们的一些软件需求,比如虚拟层业务需求,这里包含了BOIS配置、VT-D配置、VT-X配置、多线程配置、启动模式配置。第二块是自动化相关的配置,比如PXE使能配置。还有关于交换机配置,这也是两方面:一种是SSH配置、生成树等基础配置,另外一部分是比如LLDP协议使能、命令回显要求等等。

我们推进自动化过程中有一步一步的过程,从自动化测试演进到自动化配置过程中面临两个重要的问题:第一个问题,连线检查,目前针对机房综合布线的连线检查是以LLDP协议为基础进行检查,传统使能这个协议是通过带内操作系统开启协议模式,但是我们在实际过程中遇到很大挑战,因为有些新建场景,比如机房是新建的、完全独立的,通过技术手段给它们推送自动化安装操作系统,然后再做LLDP协议使能是可以的。但是很多场景其实是不允许我们在上面装操作系统,我们的挑战是如何在没有安装操作系统的情况下能够很方便的使能LLDP功能,于是我们调研了业界厂商情况,对技术进行了规范化要求:一方面要求厂商支持LLDP协议和支持有命令开关,二是支持网卡服务器厂商通过接口控制网卡LLDP协议开启和关闭,我们把这块内容写到了技术规范里作为规范化的要求。

另外一个问题是关于交换设备的配置,交换设备在数据中心集成过程中、配置过程中是非常挠头的问题,交付的同事了解网络配置对数据中心的建设至关重要,是配置量最大、最容易出现问题、影响面最大的,我们希望通过自动化方式把它进行配置,减少人为投入以及人为投入带来的错误。这其中很重要的是我们如何通过自动化的方式、不用人工介入的方式实现,这里重要技术是要求它交换机管理口支持DHCP client功能,上线以后通过DHCP server获取IP地址默认用户名、密码,做登陆和配置检查,实现交换机的自动化配置和检查。

刚才说的这些内容不仅仅是在方案阶段,在中国移动网络云、建设中有了一定规模的落地。这边是落地情况,当前基于60+资源池近7万台服务器进行了大规模实践,针对1000-1500台典型资源池完整跑一遍自动化配置和测试大约是1.5小时,对于传统工期通过自动化方式克服了大规模等问题后,工期大幅度下降,从传统2个月下降到当前4-15天,在当前中国移动如火如荼建设5G过程中发挥比较大的作用。

我重点跟大家分享下关于自动化给我们实际工期带来的效果,左图简单说明了这个问题,最左边是传统企业最常见的情况,大部分是手工、半自动的方式进行配置,企业往往会采用抽查方式对设备进行检查,手工配置但通过自动化方式进行检查的工期有50%工期缩短。实践过程中是先做自动化检查,然后做局部自动化配置,最后实现完全自动化配置。当实现完整的自动化配置和自动化流程检查时,工期显著从左边柱状图缩短到右边柱状图,符合我们论坛的主题,用软件方式大幅度提升了硬件的交付效率问题的解决。

我们在自动化过程中一直在不断的演进,自动化工具在过程中势必面临很多问题,尽量是去软件化的方式,软件开发的时候采取处理逻辑和数据的分离,厂商只针对数据进行适配,代码基本不用改变。具体来说,我们提软件数据模板,厂商通过填写数据模板方式完成适配工作,们提供了完备的模板包含协议、URL、请求头、请求体、返回码等内容,大家模板填写之后返回给我们就完成了对接工作。交换机命令差异比较大,各个厂商主要是通过命令行方式和大家返回值做正则表达式适配,我们提供这样一个交换机模板。实际过程中为了进一步简化模板,我们也提供了脚本软件,也就是说厂商在实验室运行脚本软件,然后把返回值给我们,针对其中返回的信息不准确的地方,再用模板的方式进行,过程中不断优化集成的对接。

规范化一定离不产业的共同推动,应对大规模和多厂商交付一定需要自动化,自动化一定需要从产业界共同推动,当前中国移动构建了“OPEN-AUTO”合作伙伴机会,正如前文我到的技术要求内容、要求产业界共同遵守,大家按照统一模式进行实践、进行开发,通过产业的方式把自动化背后的标准化做得更加完善。

最后有一点展望。中国移动无论建设网络云还是IT云都是很大规模的,对于集成、对于测试、对于运维会有一系列要求,中国移动研究院针对此问题专门成立集成交付团队推动工作,团队在不断发展壮大中,也求贤若渴,欢迎大家的加入。

新闻搜索

覆盖全国各省会城市及海外城市的网速测试
→选择要测试的地区
→选择目标测试点