元核云分布式存储好不好

在“棱镜门”、“勒索病毒”、“制裁中兴”等众多事件发生后,让我们意识到核心关键技术受制于人会带来巨大的经济损失和国家安全风险作为一家以研发新一代分布式存储产品的高新技术企业,积极响应军民融合号召,从2015年开始进行基于自主可控处理器的分布式存储产品研究,并联手存储产业上下游合作伙伴,成功实现了分布式存储软件在申威平台上的完美集成。4月10日元核云正式发布拥有自主知识产权的分布式存储系统YC-SCDS

YC-SCDS(元核云自主可控分布式存储系统)采用业内领先的分布式架构,基于指令集自主可控的申威1621处理器硬件平台,支持中标麒麟、深度、神威睿思等多款国产Linux操作系统,整匼硬件资源成为存储资源池,可统一为上层提供文件存储、对象存储、块存储服务。

支持多副本、EC等多种存储策略,支持从数据中心到磁盘级嘚故障隔离域设置,浅度扫描和深度扫描相结合的静默数据损毁检测机制,支持国密算法的数据加密存储

具备自动降级机制的高分区容忍性,鈳对硬件故障进行自动隔离,数据恢复时进行智能QoS控制。

支持SSD缓存技术、InfiniBand网络、硬件卡算法加速、海量小文件合并优化、数据散列存储优化、基于Block的数据管理等

提供统一的可视化的智能运维管理平台,集自动化部署、存储资源管理和配置、监控告警、故障自动隔离、数据自动囮修复等功能于一体,可以让每个存储运维人员管理服务器数量从原来的几十台提升到上千台服务器。

可以提供面向Windows的CIFS协议和面向Linux的NFS系统协議,实现文件数据共享,同时支持Windows域安全配置和Linux文件安全配置

分布式文件系统应用场景

可以直接使用分布式文件系统协议,无协议转换网关损耗,可提供超高的IOPS和带宽极限性能。

可以直接通过HTTP协议获得存储服务,完全兼容Amazon?S3对象存储协议,应用在互联网APP和网盘场景,以及其它通过HTTP使用存儲的场景

可为常见的备份软件(NBU,CB,国产备份软件)提供后端存储的服务。

可以提供标准的HDFS语义,替代HDFS,为Hadoop和Spark提供后端存储服务,同时支持大数据应用苼产和大数据应用数据备份两种应用场景

中国要发展自主可控技术产业,必须要建立良好的国产化产业生态环境。元核云欢迎存储产业链仩下游合作伙伴共同努力,在发展自主可控的中国芯平台及产业生态的道路上携手并进!

当前国内局势实现科技内循环已昰迫在眉睫从底层芯片到上层应用,很多厂商也在投入包括分布式存储对国产服务器的适配。华为也从传统往分布式存储改变还有嘚体量较小的公司也在崛起,有xsky、元核云、杉岩等包括飞腾、申威、龙芯cpu,xsky已与飞腾完成兼容认证元核云则在申威领域比较突出。

Ceph运维告诉你分布式存储的那些“坑”

汪涉洋来自美国视频网站hulu的工程师,毕业于北京理工大学计算机专业目前从事大数据基础架构方面的工作。个人知乎专栏“大数據SRE的总结”:

过去两年我的主要工作都在Hadoop这个技术栈中,而最近有幸接触到了Ceph我觉得这是一件很幸运的事,让我有机会体验另一种大型分布式存储解决方案可以对比出HDFS与Ceph这两种几乎完全不同的存储系统分别有哪些优缺点、适合哪些场景。

对于分布式存储尤其是开源嘚分布式存储,站在一个SRE的角度我认为主要为商业公司解决了如下几个问题:

可扩展,满足业务增长导致的海量数据存储需求;

比商用存储便宜大幅降低成本;

稳定,可以驾驭好运维。

总之目标就是:又好用又便宜,还稳定但现实似乎并没有这么美好……

本文将從这三个我认为的根本价值出发,分析我运维Ceph的体会同时对比中心化的分布式存储系统,比如HDFS横向说一说。

Ceph声称可以无限扩展因为咜基于CRUSH算法,没有中心节点 而事实上,Ceph确实可以无限扩展但Ceph的无限扩展的过程,并不完全美好

首先梳理一下Ceph的写入流程。Ceph的新对象寫入对象需要经过PG这一层预先定义好的定额Hash分片,然后PG再经过一次集群所有物理机器硬盘OSD构成的Hash,落到物理磁盘

因此,Ceph的所有对象是先被pre-hash到了一个固定数量的桶(PG)当中,然后根据集群的整体物理架构crushmap选择落在具体的机器磁盘上。

这对扩容有什么影响呢

我给扩嫆粒度的定义是:一次可以扩容多少台机器。

Ceph在实践中扩容受“容错域”制约,一次只能扩一个“容错域”

容错域就是:副本隔离级別,即同一个replica的数据放在不同的磁盘/机器/Rack/机房。

容错域这个概念在很多存储方案里都有,包括HDFS为什么Ceph会受影响呢?因为Ceph没有中心化嘚元数据结点导致数据放置策略受之影响。

数据放置策略即一份数据replica,放在哪台机器哪块硬盘。

中心化的比如HDFS,会记录每一个文件下面每一个数据块的存放位置。这个位置是不会经常变动的只有在1.文件新创建;2.balancer重平衡;3.有硬盘坏了,中心节点针对损坏硬件上的數据重新放置时才会改变

而Ceph,因为去中心化导致容纳数据的PG的位置,会根据crushmap的变化而变化 来了新的机器、硬盘,就要为一些受影响嘚PG计算新的位置 基于一致性哈希的技术,在扩容时也要面临同样的问题

因此,Ceph扩容需要PG们调整正因为这个调整,导致Ceph受“容错域”淛约

例如:有一个PG,是3副本Ceph集群有一个配置是PG要向外提供正常服务,至少有2个完整的副本而当这个数据pool的容错域是host时,同时扩容2台機器一些PG就有可能把3副本中的2个都映射到2台新机器上去。而这2个副本都是新副本都没有完整的最新数据。剩下的一个副本无法满足咾机器至少有完整的2副本的要求,也就不能提供正常读写服务了

这就会导致这个PG里的所有对象,停止对外服务

作为admin,当然可以把配置降低把数据pool的min_size下降为1。但这种配置即使在正常情况下,因为磁盘故障都有可能丢失数据,因此一般不会这样设置

那在扩容时,一佽只扩容一台机器时是不是就安全了呢?

这样就能保证所有PG都至少在老机器有2个完整的副本了可是,即使是扩容一台机器也还要面臨扩容时老机器中有硬盘坏掉,导致PG的完整副本又下降为1的极端情况发生

虽然PG有可能不能服务,但数据的持久性是没有问题的国内AT的雲,服务可靠性都没有做得特别高做到像持久性那样3个9、4个9。虽然我不确定这两朵大云里的对象存储是不是使用的Ceph但只要是基于类似CRUSH算法,或者一致性哈希等类似的去中心化技术实现的对象存储应该都会面对部分数据暂时不可服务的情况。

我们抛开最极端的情况即假设在扩容时,以一个“容错域”加入机器时暂时没有磁盘损坏。那么有没有办法可以提升扩容粒度呢

办法是,在开始规划Ceph集群时設定好更大层次的“容错域”,比如Rack 可以是真实的Rack,即使没有也可以是逻辑的Rack这样扩容时,可以扩一个逻辑“容错域”就可以打破擴一台机器的限制,扩一整个Rack至少有好几台机器。

Tips:这里我没有讲为什么扩容粒度小是个不好的事其实在很多公司,数据的日均增长量是很有可能大于一台机器的存储容量的这就会造成扩容速度赶不上写入速度的尴尬局面。这对于开始没有设计好图快速deploy而架设的集群,在后期是一个不小的伤害

Ceph是根据crushmap去放置PG的物理位置的,倘若在扩容进行了一半时又有硬盘坏掉了,那Ceph的crushmap就会改变Ceph又会重新进行PG嘚re-hash,很多PG的位置又会重新计算如果运气比较差,很可能一台机器的扩容进度被迫进行了很久才回到稳定的状态

这个crushmap改变导致的Ceph重平衡,不单单在扩容时几乎在任何时候,对一个大的存储集群都有些头疼在建立一个新集群时,硬盘都比较新因此故障率并不高。但是茬运行了2-3年的大存储集群坏盘真的是一个稀松平常的事情,1000台规模的集群一天坏个2-3块盘很正常crushmap经常变动,对Ceph内部不稳定影响真的很夶。随之而来可能是整体IO的下降(磁盘IO被反复的rebalance占满),甚至是某些数据暂时不可用

所以总的来说,Ceph的扩容是有那么一丁点不痛快的Ceph确实提供了无限的扩展能力,但扩容过程并不平滑也不完全可控。crushmap的设计达到了很好的去中心化效果,但也给集群大了之后的不稳萣埋下了一个坑

而对比中心化元数据的HDFS,在扩容时几乎无限制你可以撒欢地扩容。老数据的搬迁重平衡都会由单独的job来处理,处理吔很高效它采用了满节点和空节点两两配对的方式,从老节点移动足够的数据填满新机器即可。中心化元数据在扩容&重平衡时反而變成了一个优点。

扩容到一定量级后PG数量需调整

如上文的Ceph数据写入流程图所示,Ceph对象的最小放置单位是PGPG又会被放在硬盘上,PG理论上肯萣是越大越好因为这样数据的分片随机性更好,更能掩盖伪随机造成的单块盘容量偏差过大问题但PG数量在现实中不是越大越好的,它偠受限于硬件如CPU、内存、网络。 因此我们在规划PG数时不会盲目调大,一般社区也是建议200pg / osd

假设我们现在有10台机器,每台一块硬盘一共10塊盘有1024个PG,PG都是单副本那么每个盘会存100个PG。此时这个设置非常健康但当我们集群扩容到1000台机器,每台硬盘就只放一个PG了这会导致偽随机造成的不平衡现象放大。因此admin就要面临调整PG数量,这就带来了问题

调PG,基本也就意味着整个集群会进入一种严重不正常的状态几乎50%的对象,涉及到调整后的PG都需要重新放置物理位置这会引起服务质量的严重下降。

虽然调整PG不是一个经常性的事件但在一个大型存储,随着发展不可避免会经历这个大考。

我们所说的和商业存储比较一般就是和EMC、IBM这类硬件软件存储解决方案厂家,或者云解决方案Aliyun、AWS之类的对比

自己建设机房,当然在硬件单价上更为便宜但需要考虑综合成本,包括:1.硬件成本;2.自养运维人员成本;3.服务质量甴一般向好慢慢收敛

人的成本这种玄学的问题,我就不谈了本文只谈Ceph在硬件成本这块有什么有趣的地方。讲道理自己建机房,硬件荿本应该是毫无疑问的便宜那么Ceph在这里有什么特殊呢?

问题在于集群可靠利用率。

集群可靠利用率即整个集群在容量达到某个水平時不可对外服务,或者说不能保持高可用的服务

打个比方,我们的手机闪存/电脑硬盘是不是到99%了还能正常工作? 当然因为是本地存儲嘛。对于云解决方案也天然就没有这个问题了。

对于商用存储解决方案比如EMC的Isilon分布式文件系统,存储容量达到甚至98-99%仍能对外提供垺务。

对于HDFS在95%以下,存储也能很好地对外提供服务跑在HDFS上的Hadoop Job,会因为没办法写入本地而挂掉

而对于Ceph,在这一块表现得并不好根据經验,在集群整体使用率达到70%后就有可能进入不稳定的状态。

这是为什么呢问题在于,去中心化带来的tradeoff

Ceph是去中心化的分布式解决方案,对象的元数据是分布在各台物理机上的因此所有对象,是被“伪随机”地分配到各个磁盘上的伪随机不能保证所有磁盘的完全均勻分配,不能降低很多大对象同时落在一块盘上的概率(我理解加入一层PG又使PG多replica,是可以让磁盘的方差变小的)因此总有一些磁盘的使用率会高出均值。

在集群整体使用率不高时都没有问题。而在使用率达到70%后就需要管理员介入了。因为方差大的盘很有可能会触忣95%这条红线。admin开始调低容量过高磁盘的reweight但如果在这一批磁盘被调整reweight没有结束时,又有一些磁盘被写满了那管理员就必须被迫在Ceph没有达箌稳定状态前,又一次reweight过高的磁盘 这就导致了crushmap的再一次变更,从而导致Ceph离稳定状态越来越远而此时扩容又不及时的话,更是雪上加霜

而且之前的crushmap的中间状态,也会导致一些PG迁移了一半这些“不完整的”PG并不会被马上删除,这给本来就紧张的磁盘空间又加重了负担

囿同学可能会好奇,一块磁盘满了Ceph为什么就不可用了。Ceph还真的就是这样设计的因为Ceph没法保证新的对象是否落在空盘而不落在满盘,所鉯Ceph选择在有盘满了时就拒绝服务。

在我咨询了一些同事和业界同行后基本上大家的Ceph集群都是在达到50%使用率时,就要开始准备扩容了這其实是挺不省钱的,因为必须空置一大批机器的存储资源并且未来集群的规模越大,空置效应就会放得越大意味着浪费的钱/电费越哆。

而很多传统的中心化的分布式存储系统由于写入时可以由主控节点选择相对空闲的机器进行写入,因此不会存在某些磁盘满了导致整个集群不可写入的问题。也正是如此才可以做到整体写入到95%了,仍然保持可用性

我没有真正核算过这种效应带来的成本waste,但至少看上去是有点不够完美的

打个比方,当我预估有50pb的存储时需要300台物理机了,我居然要提前采购好另外200-300台物理机还不能马上用上,还偠插上电

因此Ceph也并不一定会很便宜,去中心化的分布式存储也并没有那么美好

但中心化的危害,似乎又是没有争议的问题(单点问题、中心节点扩展性问题等等 )因此分布式里真的没有银弹,只有tradeoff

还有一种办法,就是Ceph的集群按整个pool来扩容一个pool满了,就不扩容了開新的pool,新的对象只准写新的pool老的pool的对象可以删除,可以读取 这乍看之下是一个很棒的解决方案,但仔细想想这和HDFS的federation,和MySQL的分库分表做前端的大Hash,似乎没有区别

这也就谈不上是“无限扩容”了,而且还需要写一个前面的路由层

三、稳定,可驾驭好运维

这个稳萣好运维,基本就看团队的硬实力了对开源软件是否熟悉,是否有经验真的会有很大不同。

同时这还受开源社区文档质量的影响。Ceph嘚开源社区还是不错的Red Hat收购并主导了Ceph之后,重新整理了Red Hat版本的Ceph文档我认为读起来逻辑感更强。

在公司内积累自己的运维文档也很关键一个新手很可能会犯很多错误,导致事故发生但对于公司,踩了一次的坑就尽量不要再踩第二次了。这对公司的技术积累管理、技術文档管理、核心人才流失管理都产生了一些挑战。

我在Ceph运维中曾遇到一个棘手的问题。即Ceph集群达到了80%后经常有磁盘变满,然后管悝员就要介入调低过高磁盘的reweight。而在这台磁盘使用量没降下来之前又有更多的磁盘被写满了,管理员就又要介入又调整reweight,Ceph至此就再吔没有进入过稳定状态了管理员还必须时时刻刻盯着集群。这导致了极大的运维投入所以像这种事情一定要避免,这对运维人员的士氣是很大的伤害

那么,是否应该在早期进行容量预警启动采购流程呢?

可是这样做又回到了资源浪费的问题上。

此外Ceph的对象是没囿last_access_time这种元数据的,因此Ceph对象的冷/热之分需要二次开发,做额外的工作集群大了之后,如何清理垃圾数据、如何归档冷数据也带来了鈈小的挑战。

1、Ceph确实有无限扩容的能力但需要良好的初始规划,扩容过程也并不完美中心化造就了扩容的上限是单台master结点的物理极限,造就了无限扩容的理论基础但实际扩容时,服务质量会受严重制约

2、Ceph有些浪费硬件,成本核算时要考虑更多

3、Ceph本身的去中心化设計牺牲了不少元数据,比如lastacesstime这给未来数据治理带来了压力,也需要更强的团队来运维和二次开发积累运维经验,积累运维团队是驾馭好开源分布式存储的核心。对手随着时间越来越强大应对的运维团队也需要越来越好,才能让生产关系匹配生产力的要求

4、技术本身没有绝对的好坏,不同的技术是用来解决不同问题的但在场景下,技术是有好坏的因为在场景下,你有了立场就有了亟待解决的問题的优先级,也就一定能按优先级选择出最适合你的技术

我要回帖

 

随机推荐