网站首页 实验室介绍 科学研究 学术交流 人才队伍 开放课题 招聘信息 联系我们
实验室新闻

 
 
 实验室成功举办“大规模分布式存储的自研之路”技术沙龙

2020-07-07 15:00:49


      物联网、云计算、人工智能、5G等前沿技术作为数字经济新引擎,在视频社交、城市安防、医疗、教育、通信等领域得到广泛应用,为民生改善、加快经济转型、推动社会进步带来深刻的影响。技术应用的背后是奔涌着的数据浪潮,海量数据的出现在给企业带来巨大经济价值的同时,也衍生出一系列的数据存储问题。

      针对企业数字化转型过程中的存储需求,高效能服务器和存储技术国家重点实验室(以下简称“实验室”)于7月3日举办了 “大规模分布式存储的自研之路”技术沙龙活动。本次活动由实验室和存储产业技术创新战略联盟共同主办,邀请鹏云网络创始人兼CEO、前亚马逊公司云计算核心组系统架构师陈靓博士,就大规模分布式软件定义存储的发展、机遇以及挑战展开交流,吸引了xx余名科研技术人员在线参与讨论。

一、存储技术变革背后的推动力

      分享环节,陈靓博士首先对当前软件定义存储(SDS)的发展机遇做了简要剖析。陈靓博士称,SDS是类似于操作系统和数据库一样的底层软件,数据中心对虚拟化和云的需求不断增长,带动了SDS及相关解决方案的采用;新基建对于信息技术的投入,使SDS成为替换传统存储阵列的新趋势,也使其成为存储必然的发展方向。

      物联网、AI应用、直播、电商、游戏、远程医疗、远程会议、视频监控等应用所产生的、需要用到的数据呈爆发式增长。如何存储这些数据,是目前阵列存储所面临的较大问题。 “云计算和边缘计算的最底层需要一个强大的SDS做支撑。”企业可以充分利用SDS的优势来加速推进数字化转型,在降低IT投入的同时,维持现有业务、支撑可能的扩张。

二、SDS如何解决用户痛点

      陈靓博士细致归纳了当前用户在便捷运维、故障恢复等方面面临的问题,进而从软件定义存储的特点入手,分析了大规模分布式软件如何有效解决这些痛点。SDS能够替代阵列产品的几个典型特性可以概括为:“三高一低”——高可用性、高扩展性、高性能、低成本,这些特性对于SDS本身的软件架构具有较高要求。

      1、系统扩展性不好

      部分存储系统存在资源池比较小的问题,若管理海量数据,需要划分多个资源池,但这种方式使管理变得复杂。

      2、存储系统延迟太长

      阵列存储本身路径非常短,系统延迟短;而分布式存储IO路径长,比如从用户应用到内核态或用户态,如果是写IO,需要写多个副本,通过网络放到不同的节点上,从节点响应回来,再到应用,整个路径变得更长。系统的延迟变长,这也是SDS在很多核心应用场景里很难去替换掉存储阵列的一个问题。如何让存储系统的延迟变短,同样是SDS需要解决的问题。

      3、存储系统容错性差,维护难

      1)容错性差:假设有一个4个节点的集群,若要下线一个节点,可能出现两个情况:第一,业务可能会出现15秒到2分钟的中断,IO读写完全不能进行;第二,中断过后,整个系统出现没有必要的数据迁移,这会影响整体业务数据的IO。稍好的存储系统,下线的时候IOPS不会变得很低,但是上线的时候却会发生没有必要的数据迁移。这影响了整体的容错性能。

      2)维护难:如果系统出现硬盘变慢、无缘无故下线、网络抖动等情况,需要人为介入,因此增加了运维的复杂性。

      4、案例说明:VMware虚拟化平台对后端SDS的要求

      相对于KVM和OpenStack,VMware虚拟化平台对后端存储系统的要求要高。首先是对延迟的要求提高,读写延迟通常不能超过20ms左右,否则连续的高延迟IO会导致 VMware datastore不可用,以至于虚拟机不可用。第二,对业务连续性要求高,在硬件出错时,IO中断时间超过15-30秒也会导致datastore变成只读。因此,若想与主流的VMware虚拟化平台无缝对接,保障数据安全和业务连续性,企业需要在延迟和性能等方面突破存储技术瓶颈。

三、交流与讨论

      分享过后,陈靓博士同参会人员继续围绕软件定义存储架构、分布式元数据、网络拓扑、海量小文件优化等问题展开了深入讨论。

      问题1 数据冗余是怎么做的?

      陈靓:块存储用的是副本,对象存储用的是EC。个人认为块存储不适合用EC,因为EC消耗CPU,而分布式块设备对延迟要求比较高;块存储主要是数据库、云平台、虚拟化或Container等应用场景,这些应用场景的数据量相对较小,但对延迟要求较高,这种情况下用EC得不偿失。对象存储属于温存储,用户更关心成本,对延迟要求没有那么高,延迟100毫秒、200毫秒用户都能接受,所以用EC是非常合适的。

      问题2 存储性能这块有遇到什么问题吗?

      陈靓:在研发过程中经常遇到关于存储性能的问题,整个性能调优不是一蹴而就,因为要考虑IO路径上的每一个环节,包括如何尽可能减少软件栈的数据复制,如何从内核态到用户态,再到网络的内核态。或者考虑不需要网络内核态,而是通过某种技术直接到网卡驱动。举个例子,2016年在大块性能处理上遇到了问题,分析后发现是因为底层通讯的软件编写存在一定问题,所以重新构架了网络通讯来解决这个问题。

      问题3 构建资源池时,网络采用哪些架构和拓扑,有没有针对网络做特殊优化?

      陈靓:可以从两方面着手,第一点是构建资源池时可以做优化,比如前后端分离,把来自用户的前端网络数据和后端存储节点之间的通讯分开,尽可能利用网络带宽;第二是控制通路和数据通路尽可能通过不同的网络去承担,好处在于压力很大的情况下,控制不会受到IO的影响。

      问题4 多副本的情况下是如何实现数据一致性的?能够简要描述下data path么?

      陈靓:通过日志的方式。比如,驱动会产生一个日志,把日志通过广播的方式放到三台机器上,确保三个副本收到它的请求后再返回,通过这种方式实现数据一致性。

      问题5 文件系统对海量小文件是如何优化的?

      陈靓:我相信这个问题一直是困扰分布式文件产品的一个问题。从文件系统元数据本身来看,我们的文件如果出现海量小文件,可以把元数据放到单独的集群上面去。GlusterFS用Linux文件系统去承载用户文件,海量小文件会让Linux的文件系统里出现大量小文件,它的元数据就会很多,这样承载起来变困难。因此可以从两个方面做优化,第一把具体文件的元数据用单独的集群去承载,第二是用SSD去承载。

      问题6 请问是否有针对特定的存储介质做优化,譬如SSD?

      陈靓:在全闪的环境下,SSD的优化和磁盘HDD的优化在多个地方存在差异,比如SSD存在的GC问题,所以尽可能把写分散到SSD上,列举其中一个优化的例子:HDD的优化实际上不能较好地支持随机IO,需要尽可能把随机的IO变成顺序的IO,所以对磁盘驱动这一块,实际上会根据下面是SSD还是HDD来实现不同的驱动,进而根据上面来的IO对下面进行优化。

      国际研究机构预估,2019-2023年软件定义存储市场的年复合增长率将达到28%,规模约为860亿美元。随着视频、大数据、数据分析、机器学习数据的积累导致存储容量增长,在数据中心存储开支中,适用于新型数据存储和处理的软件定义存储所占比例还将不断上升。软件定义存储作为数据基础设施的一部分,在我国数字经济建设的过程中正发挥着至关重要的作用,并且扮演愈来愈重要的角色。

      浪潮作为实验室的依托单位,长期服务于政府和企业的数字化转型,在“新基建”相关技术领域积极布局,在软件定义存储技术方面处于国内领先地位,拥有超大规模数据中心级分布式存储平台,并在广电与监控行业高清化视频、医疗AI影像、顶级科研等领域积累了丰厚的经验。今年年初COVID-19爆发,浪潮为抗击疫情尽科技之力,为武汉大学中南医院PACS医学影像系统提供存储平台支撑和服务支持,保障抗“疫”不掉线;助力中国科学院国家天文台FAST,满足FAST的海量并可弹性拓展的数据存储需求;为清华大学多维多尺度高分辨率显微成像提供支持,推动中国生命和医学科学发展,提升我国脑科学研究和应用水平。

      本次技术沙龙立足于企业存储,关注存储行业的新技术和新发展。实验室密切关注前沿技术研究,积极同存储产业发展的各主要推动力量开展交流,推动技术落地,实现融合发展,在进行核心技术创新研究的同时,为产学研的交流合作搭建有力的平台。

 

 

[ 字体大小: 14 12 9 ] [ 打印]

高效能服务器和存储技术国家重点实验室 | 联系我们 | 京ICP备12012807号-3
© 2016 Hsslab