Facebook的SSD研究成果:故障、疲劳与数据中心 厂商专区

2015-06-16    来源:ZDNet至顶网    编辑:佚名
SSD的出现给数据存储领域带来了革命,然而我们对其实际工作方式却可谓知之甚少。如今,Facebook公司与卡耐基-梅隆大学的研究人员们一同发布了其经过长达数百万小时工作后整理出的

SSD的出现给数据存储领域带来了革命,然而我们对其实际工作方式却可谓知之甚少。如今,Facebook公司与卡耐基-梅隆大学的研究人员们一同发布了其经过长达数百万小时工作后整理出的结论。

每一天,存储业界售了的SSD产品总量高达数百万块,而其给人留下的最大印象就是能够显著加快系统引导与应用启动速度。不过其对于全天候不停转的数据中心来说意味着什么?管理员们又需要留心SSD所带来的哪些常见问题?

考虑到上述疑问,卡耐基-梅隆大学的Justin Meza及OnurNutlu与Facebook公司的Qiang Wu及Sanjeev Kumar共同开展了一项“闪存记忆体现场故障状况大型研究”,旨在了解SSD在日常运作中的实际表现。

基本方法

Facebook公司可算是SSD方案的早期拥护者了。他们多年以来一直是Fusion-io公司——PCIe SSD产品的先驱性开发厂商——的最大客户,因此他们拥有着更为深层的SSD使用经验:每天数百万块驱动器保证其具备充足的考察对象。

遗憾的是,这项研究并没能针对多家供应商分别实施。相反,此次调查只能根据部署时间对SSD加以考察,这意味着部署时间最长的SSD属于第一代设备,而时间较短的则为第二代设备。

更重要的是,该研究团队对于故障作出了自己的定义,即由不可纠正的读取错误(简称URE)所导致的数据丢失。这类故障状况并不意味着SSD设备已经彻底损坏,但是那些曾经出现过一次URE状况的SSD往往很容易再次遭遇同样的问题。

与个人用户不同,Facebook公司更倾向于使用容量最大的企业级SSD产品:其最新一代方案容量可达3.2 TB。这些可绝不是那些常见于笔记本设备之上的每GB要价35美分的SATA固态硬盘。相反,它们属于经过极限配置的PCIe SSD,在设计思路方面专门考虑到了高负载循环的需要。

除此之外,由于SSD无需依靠控制器纠正内部读取错误,因此本次研究当中所发现的错误只包含那些被报告至服务器的状况。服务器有时候能够重构SSD控制器所无法处理的数据,因此我们可以将其视为设备层级的报告、而非介质层级。

研究结果

好消息是,某些人们所担心的问题其实完全并没那么夸张。坏消息是,我们忽略掉的问题往往时有出现。

温度

SSD对于工作环境的温度非常敏感——比普通磁盘驱动器更加敏感。当温度过高时,SSD的性能往往会有所缩水。因此,如果某些服务器莫名其妙地出现性能下滑,请各位管理员检查温度这一指标。

第一代SSD产品往往会在温度上升时发生故障率增加的情况,这可能是因为其缺乏对应的抑制机制所导致。部分第二代SSD则能够在高温环境下显著降低故障发生机率——当然,也有一部分第二代SSD的故障率与上代方案基本一致。

总线供电

SSD显然是一只电老虎。PCIe v2 SSD的正常运行功率一般在8瓦到14.5瓦之间,如此巨大的浮动区间以及高额功耗可能远超大家的想象。研究团队发现,当功耗水平提升时,SSD设备的故障率也会随之增高。

写入疲劳

该研究团队发现,系统级别的写入活动与SSD故障紧密相关,这很可能是因为闪存写入操作需要消耗大量电能。因此对于像日志系统这样会带来高强度写入操作的应用程序来说,普通磁盘可能会是更好的选择。

SSD故障

SSD故障——也就是前面提到过的URE——相对比较常见:报告不可纠正错误的SSD占比由4.2%到34.1%不等。事实上,上一周曾经报告过错误的SSD当中,有99.8%会在下一周再次报告错误。

生命周期与故障

SSD故障表现与磁盘驱动器不同,后者的开箱故障率较高,但接下来几年的可靠性则比较理想,并最终随着时间的推移再度呈现出高故障率态势。SSD的早期URE状况往往是由于某些存储单元被识别为存在故障,其余正常产品拥有良好可靠性,直到随时间推移由于存储单元损耗而导致故障机率增长。

数据布局

磁盘驱动器的运作效果并不会受到数据布局的显著影响——除非其中涉及大量随机搜索操作。不过SSD的情况则完全不同。

稀疏的逻辑数据布局——也就是非连续数据——会导致较高的SSD故障率,当然数据密度过高亦会产生同样的效果。

存储空间占用

这部分内容在此次研究团队的论文当中占有重要比重。我们都知道SSD在空间占用方面与磁盘驱动器存在明显差异——也就是固态与机械间的区别——但具体差异如何却不可预测。

PC SSD往往呈现出较高的错误率,但用户——包括我个人在内——却往往注意不到。而且一旦出现数据问题——就像我上周在MacBook Air的500 GB SSD当中所遇到的——我们根本不知道问题为何产生。是SSD的毛病?HFS+文件系统的问题?恶意软件?还是宇宙射线的干扰?答案很难确定。

如果大家管理着配备有SSD的服务器,那么不妨从以上方面入手进行一番探寻。此次联合研究团队以循证医学的角度对SSD特性作出了调查,并提供了独一无二的SSD实证结论。

如果大家在使用SSD的过程中有所发现或者遇到了莫名其妙的状况,也请在评论栏当中分享您的经历与心得。

1
3