全球最高性能分布式存储系统幕后黑科技

   随着5G/大数据/AI发展,非结构化数据爆发式增长,更加关注TCO和效率提升,大容量 (云) 、大带宽 (视频, HPC/AI)、融合存储(数据湖)场景增长迅速,云化时代呼唤新架构数据存储,如果说集中式存储是火车的话,那么分布式存储就是是云时代的动车。行业关键客户云化转型进入深水区,分布式存储大势已来。

  分布式存储从应用开发测试和备份归档场景起步,逐步进入虚拟化/云、大数据、HPC/AI等场景,一直以来大家更关注分布式存储扩展性,性价比,但是新场景对分布式存储的高性能低时延提出了更高的诉求。

  分布式存储性能提升的天花板效应出现

  一直以来,分布式存储的IO性能和时延受制于传统机械硬盘的访问速度。但随着闪存盘的广泛采用,分布式存储的整体性能得到了极大的提高,也为分布式存储冲击高价值存储市场提供了更多的可能性。但是传统上通过增加存储节点的并发度来提升性能的手段,在全闪存的分布式存储系统中代价越来越高,随着节点的增加带来的性能提升非常有限,另外是随着节点的增多时延会急剧的增加。

  传统网络的拥塞丢包机制成为幕后黑手

  为什么全闪存的分布式存储随着节点的增加性能提升不明显但是时延会急剧的增加呢?通过一次IO端到端时延的分析发现,随着闪存介质的的时延降低,网络的时延已经成为明显的短木板。在传统硬盘时代,90%的时延来自于硬盘访问时延,网络时延忽略不计;但是在闪存时代,us级的介质访问时延几乎可忽略,65%以上时延在网络中,特别是随着分布式存储中,存储节点的增加使得网络的拥塞加剧,带来了更高的网络时延。更进一步的分析得出,在网络的整个时延中,90%的时延来自拥塞导致的网络交换机内部的排队丢包。存储节点数越多,拥塞越越多导致丢包越严重,一旦重传带来的时延完全不可接受。

  华为AI Fabric真正实现0丢包100%释放存储性能

  如何构建一个0丢包的网络成为分布式存储突破性能天花板必须解决的问题。

  我们知道大规模网络中流量超过交换机的处理和缓存能力时,基本的以太网处理机制就是丢弃报文。无损网络的实现虽然包含一系列流量调度机制和措施,但其核心都在于控制发送端的发送速度,从而避免超过交换机处理能力的拥塞形成。

  如何根据交换机当前的拥塞情况精准的控制源端的发送速度?当前业界基本的做法是在交换机端口设置队列报文排队,一旦超过某一个阈值(临界水线),则意味着可能发生拥塞,就向源端反送反压降速信号,从而对可能发生的拥塞丢包。因此阈值非常非常关键,它影响发送反压信号的时机,是网络中是否发生拥塞的决定性关键因素。如何设置阈值成为无损网络技术创新的焦点和技术发展主线,大致可以分为三个阶段。

  过去:静态设置,粗暴反压

  最早的无损以太交换机的基本实现依赖网络管理员静态设置阈值,特别考验管理员能力,一旦设置的太保守,则可能降速太多,吞吐率很差;设置太激进则无法起到无损的效果。在早期FCoE阶段,流量模型相对简单,基本能够满足业务的诉求。但是随着当前RoCE流量模型复杂多变,一个静态的阈值无法满足变化的需求,当前这种设置方式正在被抛弃。

  现在:动态调整实时反馈

  一些领先的网络厂商,在静态设置的基础上,提出了根据流量模型的变化实时调整阈值从而不断的逼近最优值,在吞吐和丢包之间进行平衡,取得了较好的效果,目前已经成为领先企业的主流选择。

  但是,动态调整的问题,需要对流量进行实时采集分析,在大型框式设备上实现有一定的难度,另外虽然通过不断调整力争达到最优值,调整过程中与最优值还存在差距。

  未来:智能预测,精准控制

  2019年初,华为发布了业界首款面向AI时代的CloudEngine数据中心交换机,率先将AI芯片内嵌交换机中,独创iLossless 智能无损交换算法,实现网络100%吞吐下的真正0丢包与E2E μs级时延。据测试结果,效果已经无限逼近了最优值,确保无论多么网络拥塞,0丢包的基础上接近100%吞吐,这就是AI Fabric。通过AI Fabric构建的业界真正实现0丢包的以太网,可以将分布式存储网络时延持续的稳定在10us以下,揭开存储的天花板,充分的释放存储的性能。

  AI Fabric助力华为分布式存储系统冲击全球性能之巅

  目前AI Fabric已经应用到华为最新的OceanStor D系列分布式存储中,通过AI Fabric可以在同等的条件下,将时延降低15%,助力存储IOPS性能提升20%以上,冲击单节点16.8万IOPS的新高度。特别是AI Fabric确保通过增加存储节点可以接近线性的提升性能,而保持时延基本不变。

  以下是实验室模拟的不同的业务负载下,分布式存储时延和性能情况。可以看到,AI Fabric开启后,时延降低了15%以上,IOPS最高提升了45%。