用超融合技术打造EB级云平台

  • 来源:企业网D1Net
  •  2018-01-15
  •   浏览 361 次
2017 CCS企业云计算高峰论坛(ccs.d1net.com)于4月26日在北京新世纪日航饭店盛大举行,这是国内面向政企客户的最重要的一个云计算会展。CCS企业云计算高峰论坛的主题为云计算的生态链。 以下是现场速递。(声明:本稿件来源为现场速记,可能有笔误和别字,仅供参考)

书生云 首席体系结构技术官 夏御杰 主持人:接下来的发言来自书生云,发言的领域是超融合,超融合是一个新兴的领域,在大家都还在了解和熟悉超融合的时候,我想大家可能都被前两周这个领域迄今最大的一个价值十亿元的单子给震到了。什么样的公司拿到了这个单? 接下来,书生云首席体系结构技术官夏御杰将为我们带来:用超融合技术打造EB级云平台,大家掌声欢迎! 夏御杰:各位好!我是书生云的技术官,今天要说明的是我们最近在运行的一个项目,就是在凤凰创新园我们打造一个EB的这样一个数据中心,这个数据中心有什么特别之处,接下来我会跟各位做一个分享。 首先,1EB是一个什么概念?1EB的数据中心来看,我们发现实际上它可以同时容纳200万个这样的虚拟机或者是容器的运作。实际上如果以各位比较常见的家庭的存储容量,它可以容纳3000万个家庭这样的一个数据存储。实际上它每秒也可以执行千万级的交易服务。同时,它也能够保证这个数据的可靠性,也就是说,它能够保证这个系统不间断的运行,20小时的不断运行,而不会造成系统故障,或者无法服务客户的情况。 我们在建构云的时候,我们发现1EB的投入是非常大的,从十亿开始,甚至到数十亿这样的一个投入。所以,我们会发现进入了云,除了技术很重要以外,包括建构的架构很重要以外,同时成本是很重要。 我们来看成本包含哪几个部分?第一,成本实际上一个是时间成本。建构1EB云的数据中心需要耗费很多的时间,很多的人力。我们就想我们有没有什么方法能够简化让建构云更容易,让建构云能够更快速。 第二,设备的成本。我们在建构云的时候,我们在架构上、设计上、硬件上用了很多企业级设备,我们用了很多高可靠性的设备,这些高可靠性的设备符合云需求以外,因为它的设备的成本比较高,所以实际上它会造成云的运维成本也相对提高。现在我们也发现,在云的建设过程中,运维是很重要的。因为我们用的是企业级的设备,我们用的是企业级的系统,所以实际上运营上面需要很多专业人员。在这些人员的运维上也是一个很高成本。所以,整个看起来,实际上中国如果在我们运维云的这样一个层级上,怎么跟国外像亚马逊这样大型的云数据公司在中国市场,甚至在全球市场竞争,我们面临的挑战也是蛮大的。 我们书生云在建立整个EB云的数据中心上面我们实际上有我们自己的方法。我们的方法简单来说就是减法。减法的概念就是我们其实会把整个数据云的建立尽可能的简化,这个简化除了是技术上的简化,也是运维上的简化,同时也是成本上的简化。我们接下来会介绍我们在这方面做简化的这样一个技术工作它有什么样的特点。 首先,我们在简化的架构上,我们其实采取了分布式的架构。分布式的架构跟一般的分布式也什么不同?首先,后面我会做一个说明。第二部分,我们采取超融合的机制,也就是说,它已经把过去建构云所需要的机制以机柜的方式来提供,这样的一个架构在我建构整个云数据中心的时候能够很快速的建立这样的一个云服务。第三,实际上我们非常体会到客户的使用方便性上,所以我们在整个数据中心建构的情况我们采用超融合这样一个用户体验的中心,这个管理中心实际上它只是需要一般的运维人员,不用说我是一个比如数据库的,或者是一个网络的专家,需要非常多的认证才能开始运维,它其实只要一个懂IT的人就可以很轻松的运维这样一个方式。 在这个架构上面,我们跟传统的数据中心有什么不同呢?刚刚提到我们是一个超融合、分布式的这样一个数据中心架构。所以,实际上它跟传统的数据中心比起来实际上它又是能够提高很高的这样一个可靠性的数据中心。为什么能够提高呢?实际上我们因为是用分布式的架构去做,在分布式的这样的基础上,我们也做了很多的优化,甚至在架构上我们也做了很多的改变。 所以,也就是过去我们传统要靠商业的服务器,企业级的服务器,无论是双控的,或者是所谓的垂直扩展的这样的一个服务器来提高可靠度。我们现在是用所谓的分布式的方式,而且用共享架构的方式我们就能够达到传统服务器可靠性。甚至我们通过计算发现它的可靠性是传统企业级服务器的1000倍,实际上增加的数量只是增加了20%的技术成本。 谈到超融合,为什么我们建构这个EB的云数据中心需要用超融合?首先,我们考虑到超融合的方便性,超融合的方便性主要在于能够快速建构数据中心。我们过去在建构数据中心的经验里面,我们发现建构一个EB级的数据中心用传统的方式,从部署到服务器跟存储,还有网络的建构,到整个系统的调试,还有各方面参数的建立,包括应用和虚拟化各方面的整合,还有集群的建立。在这个过程中,我们最快也需要3个月。常常我们遇到的情况是我们需要一年的时间,甚至一年以上的时间来建构。 第二,我们会发现在建构这样的EB云的数据中心的过往经验里面,我们会用非常多不同厂商的设备,每个厂商的设备里面都有不同的应用,我们在这方面我们要如何整合这些厂商的产品,厂商的应用,因为每个厂商在这方面都不一样。所以,我们采取的方式是我们支持开源,同时我们的超融合我们可以用软件去定义。定义什么呢?第一,定义计算,定义虚拟化的应用。第二,定义网络的应用。第三,定义存储的应用。也就是实际上我们通过一个超融合系统我们已经把网络、计算、存储融合在一起,甚至我们在硬件上面我们也能够接受所谓的在线的这样一个部署,也就是我们并不受一般硬件厂商,或者国外这些厂商的这样的一个限制,我们能够自己定义我们网络的这样一个管理的方式,或者存储,或者计算这方面管理迁移,甚至故障处理的方式,这都是我们透过软件来定义这些所有的服务跟应用。 所以,刚刚提到为了不让我们在建构云的时候我们受到这些生态链,或是这些供应商,还有厂商这方面的捆绑和限制,我们基本上在超融合的管理方案还有系统方案我们采取开源,这也是国内少数几家愿意把技术源代码,甚至我们的架构开源出来的这样一个方式。这样的一个方面主要是让客户在使用我们的系统时候,他其实是基于一个开源架构,就是说它的技术人员也能够处理,甚至能够在上面进行二次开发,同时我们的服务也是开放性的。今天我们的客户如果他们有更好的运维团队,他们也可以利用这个开源的方式来进行这方面的运维服务。 另一方面,我们提供的也是一个商业化的架构,我们并不是完全参考开源的架构去做的,而是我们把我们商业化的这样一个产品进行开源,所以这正好是一个反方向。刚刚京东云提到,实际上国内有很多云厂商的同质性很高,主要的原因是因为云厂商它的这样一个做法,是它以开源为主来建构它的云。我们的做法不一样,我们是以商业化为主,然后开源给这个开源的社区使用,这是我们在技术上提供给开源的这样一个量度。 另一方面,刚刚提到用户体验是一个很重要的环节,建构一个超大型的数据中心如何去管理,如何让它能够持续的运维,其实很重要。我们做了一个事情,就是我们在超融合的系统上做了非常人性化,一个高用户体验的这样一个管理中心,这个中心基本上它的系统也是开源,我们也是让用户能够在这样的一个基础上能够开发自己的界面。我们当然也有基础的界面,这个界面让用户很容易,甚至用触控的方式,我们机器上面有一个触控面板,甚至不需要专业的设备就可以控管数已千计,甚至数以万计的服务器节点、存储跟网络。 接下来我们提到超融合这样的一个特性,超融合有一个特性就是它在这个硬件方面使用的是标准硬件,我们这样做的目的是因为我们希望在建构这个超融合一体机的过程中我们能够让客户甚至可以自己选择他所要的配置,而不会因为硬件的捆绑造成客户的选择变得很受限制。所以,第一个是我们采用了标准的硬件服务器、存储等等。 如何发挥硬件的性能?其实是我们一直在努力的方向。我们从软件的架构来看,一个软件在硬件的系统上面去运作,实际上硬件从过去的十年来,我们看到从过去的磁盘,到机械磁盘,到现在的固态硬盘,从过去的CPU、内存这样的容量跟计算能力,到现在已经将近有100倍的这样一个数值的成长。可是在软件上面,如果过去我们参考开源的架构,我们发现其实软件并没有很大的进步,我们就是采用商业化的做法,所以我们在软件上进行了重构,这个重构的概念就是我们如果以交通来看,软件有很多协议,有很多沟通的机制,甚至为了容灾,为了监控,为了管理做了非常多的控制。这个控制就很像一个主要的道路上我们设了很多红绿灯跟栅栏,跟管理的这样一个人员,指挥交通人员。可是我们知道尤其在北京这样的环境里面,交通是越控制越堵车,越进行管理性能越低。 所以,软件也是这样的情况,我们在看到开源这样的社区里面,软件社区的框架,包括一般有些商业化为了能够全面的控管这些服务的机制做了很多很多控制的这些运作。我们的做法是反其道而行,我们是完全应用标准硬件折算一个机制,比如说RDMA,比如说内存之间的这样一个数据交换,还有包括高速的IO,我们通过这样的机制,我们在每个应用,每个系统,包括网络,包括计算,包括存储,我们都建构了所谓的高速公路。这样的高速公路是用软件的方式去建构的。也就是当我们进行服务运作的时候,我们其实排除掉很多中间所谓管理的环节,这个管理的环节其实我们是用更先进的技术来进行这方面的管理。所以,它在监控、调试、调度、迁移的时候,它其实对于系统这样的一个性能的影响是微乎其微的。这就是我们在这方面做了很多技术上的加强跟技术上的突破。 讲到分布式的架构,实际上我想最有名的就是Google。Google在分布式的架构,它其实建构了一个很完善的这样一个分布式的机制。我们现在用的是一个超融合的方式,所以超融合因为它是一个机柜为一个重要的节点,所以每个机柜之间都是以分布式的架构,我们用了很多的机制来去到它的这个节点之间的运行和数据的交换,或者沟通,或是存储的运作能够更顺畅。 刚刚提到在整个超融合里面,这个节点,包括网络计算存储之间我们怎么去做这方面的简化跟架构上的改变呢?首先,在超融合的服务器上,存储跟计算节点之间我们采用SaaS交换,这跟传统的分布式不太一样,传统的分布式它的架构是每个节点都会有自带的硬盘,或者是所谓的固态盘,硬盘跟固态盘,在这个节点上,其实跟各个节点之间是独立的。如果是节点之间要做讯息的互换,或者讯息的交换,就要去走传统的TCP/IP这样的网络,或者走IB的这样一个架构。 我们的做法是直接透过SaaS交换进行存储共享这样的一个架构,这样的好处是SaaS比对于TCP/IP是一个非常低延时、高带宽的方式。同时,SaaS每年性能增长速度也是以倍数的性能在增长,我们过去从6G到现在的SaaS3.0 12G,在短短时间内已经在性能上翻了一倍。 同时,我们其实在所谓的存储基础上,我们又跟过去的所谓的分布式采取的方式不一样,过去分布式因为透过网络交换,它的数据独立在各个节点上,所以实际上它在数据交换的过程中它是采取副本的方式来保护数据,我们知道副本的方式保护数据,对磁盘来讲它的存储空间就直接减一半。如果说我们今天用比较高保护、高可靠的这样一个数据方式,我们要达到5个9,甚至11个9这样的一个数据可靠性的这样一个方式,我们最少就要用三个副本。也就是说,我们整体数据中心的存储能力,因为我们运用了三个副本,所以我们的容量就直接变为原来的1/3。 我们现在用这个超融合的架构来去做,这样的一个方式就是我们不再采取用副本的方式来保护数据,而我们是采取另外一种更好的方式来保护数据。这样的保护数据的方式,我们其实是可以让数据在高可用、高可靠的这样的情况下,我们只使用了25%的这样一个冗余的空间。这个冗余空间它所带来的效果是匹配于三个副本这样的一个数据保护的这样一个可靠的机制。这个也是说在所谓的超融合存储架构上我们做的第一点创新。 这个创新还有一个特点,是因为它在磁盘的整体数量上比传统的架构要减少了将近2倍,甚至3倍的这样一个架构,所以它在总体的成本上,在所谓的数据中心的节能上它是很有优势的。因为各位都知道,硬盘基本上它在数据中心里面占的成本是相当高,同时在这个系统里面它是最容易造成故障的这样一个机制,一个产品。所以它跟CPU,跟内存比较起来,其实相对来说是脆弱的。所以,我们在这方面透过这样的一个机制跟架构,我们能够更节省磁盘的使用,同时也提高了整个数据流的这样一个方式。 刚刚除了提到有关于我们采取SaaS这样一个架构以外,同时我们也提到为什么它能够提高整体的运作性能。这边我们做了一个比较,就是我用网络的方式,我们用友商常用的架构透过传统的所谓网络存储跟计算节点之间的交换,透过TCP/IP的方式,跟透过SaaS的方式,实际上它的性能会有很大的不同。 为了做到分布式的运作,所以实际上我们SaaS跟计算节点之间,我们每个计算节点看到这样一个SaaS的盘都是全局性的,这个全局限的SaaS盘能够保证每个节点即使在故障情况下,另外一个节点能够快速的接收故障节点的运作。因为在每个节点看到存储的架构上都是全局,都是能够去控制可以去管理的。所以它在整个路径上非常快速,因为SaaS没有那么多的监管控制,甚至在协议上面的这样一个运作交换,它是非常短,因为它速度非常快。它如果是透过过去的TCP/IP,它必须透过CPU的处理,CPU中间的插段跟关闭,所以实际上这两个有实质性的差异。 所以,在超融合一体机的优势上面,我们整理了三个特点。第一个特点,我们虽然采取了分布式系统,可是我们分布式系统内部是利用PCIe这样一个高速的汇流盘进行每个节点之间的同步跟交换。同时,刚刚提到我们是基于所谓的SaaS将共享存储的架构做高效的存储跟读取,所以通过SaaS交换的方式我们也能够提供相当高的数据交换系统。各位就会想到安全性呢?刚才我们的友商都提到,对于数据中心来说安全性是很高的,可靠性也是很高的要求,所以我们也有自己的这样一个技术来提供高可靠、高安全的这样的机制,包括从存储的数据迁移到虚拟机的迁移,到网络故障的迁移,包括整个集群的迁移,我们都透过我们自己这样的机制,这个商业化的产品整合,还有我们自主开发的这样的技术来进行整体的管理。 所以,超融合一体机的架构 基本上它承担了五个特点。第一,它是一个高可用。第二,它是很容易使用。第三,可以节能。因为我们在整个架构上已经进行了优化跟简化。第四,数据可靠性可以达到11个9。第五,实际上因为我们在技术上面做了很多突破,所以它的IOPS可以轻松的达到百万级的服务跟性能。 后面在提到用超融合来去运作这个数据中心,我们测算过,实际上在整体成本,包括运维成本,包括电能的节省,包括散热所需要的这样的一个机制,还有整个部署的时间成本等等,实际上我们测算过的结果是节省50%,跟传统的数据中心来看是这样的。所以,这个其实是整个数据中心运维的非常重要一点,就是如何用比较低的成本达到比较高的性能,同时也确保运维的可用性,还有数据的可靠性。 简单介绍一下我们公司。我们公司基本上已经有20多年的历史,过去在数据的保护,文件的保护,还有文件跟数据的这样一个云的建设,我们都有多年的经验。早在前几年我们就已经开始进行一体机超融合的这样一个建构计划。 所以,因为超融合这样一个技术的原因,我们很荣幸的能够得到凤凰大数据中心的青睐,说一我们于今年4月份签下一个十亿的订单,通过这样的订单我们在浙江绍兴能够建构一个有1EB这样一个存储跟处理能力的数据中心的服务。 在超融合这个数据中心的建设架构上,我们其实采取了以每个机柜为一个重要的节点,然后形成一个集群,这个集群它其实是可以扩充的,也就是说它非常轻易的能够扩充成所谓的超融合数据中心。各位想到说,为什么我们可以这么容易的扩充呢?实际上因为我们是用超融合的结构,我们把计算,我们把网络,我们把存储都用软件定义。同时,我们把整个集群的功能已经融合在我们的产品里面。另一方面,我们在整个公有云,或者私有云的运作上,也已经把相关的机制,或者是整个的管理的营运的中心,还有整个控制管理的这样一个系统跟用户的界面我们都已经整合到超融合的机器里面。 所以,实际上当客户需要扩建,需要增建整个数据中心的运作还有设备时,只需要以机柜的方式购买就可以很快的能够加入数据中心的运作。事实上刚才透过我们的安全跟迁移的机制,我们能够很快的让客户的系统进行快速的迁移跟进行负载均衡。所以,这就是我们建设超大型的数据中心所用到的超融合架构,这种架构能够快速的建构云数据的,所以无论企业需要建立私有云,或者是大型机构需要建立公有云,都能够以很快的方式建立起来,不再是过去传统需要3个月,或者是一年的时间,我们可能只需要一个月的时间,甚至几周的时间就能够技术的建立数据中心。 这是书生云的最终目标,让天下没有难建的云,今天我就介绍到这里,谢谢各位!
To Top