利用分层存储提高存储容量利用率存储与灾备
存储分层对于我们并不陌生。其指的是将数据存储基础架构配置成一组“层级”,每层由一组介质(内存、磁盘或磁带)组成,其性能、容量和成本各不相同。
建立好分层后,分层存储会将数据迁移到速度较慢但容量更大且更便宜的存储层上。这种迁移动作的触发因素可以是一些简单的标准,比如文件元数据属性中的“数据最后访问时间”或“数据最后修改时间”(将很少访问文件辨识出来并安全地迁移到较低的性能层),或者也可以精细地对业务数据内容进行分析,以及在应用程序中预定义信息生命周期管理政策。
存储分层技术可以追溯到当初的大型机计算时代。早先IBM的大型机操作系统可以通过系统托管存储和分层存储管理(HSM)直接支持分层。随着分布式计算体系架构的兴起,这类存储分层模式逐渐被淘汰。而实际应用中又局限于早期的网络互连以及服务器背板速率对数据迁移的限制。此外,分布式存储缺少厂商无关的存储标准服务或者存储资源管理(SRM)模板,这些技术可以使得不同厂商的存储产品之间实现管理有序的数据迁移。
虽然互联带宽在这些年不断改善,不同存储(尤其是不同厂商之间的产品)之间的数据迁移对于传统的分层存储模式以及有效的容量利用(将合适的数据存放在合适的存储上)而言仍是不小的障碍。即便如此,最近存储的发展,包括存储容量的需求增长以及现有阵列端不断提升的存储成本,使得分层存储技术再次受到关注。
这种关注是那些提供存储分层产品的供应商的动力之一。有些供应商热衷于推广第0层存储,这种阵列完全由闪存和内存式固态驱动器组成。第0层阵列被视为初始写入后用作高I/O的应用,尤其是在虚拟服务器负载环境中,可以用来提升I/O性能。
另一些供应商则推出多层存储阵列——这种阵列柜中包含SSD,以及小容量/高速磁盘以及大容量/低速磁盘,所有这些磁盘柜都集中在同一机柜内——能一站式满足用户的各项需求。正如所料,这种在每个磁盘柜中的存储介质(高速磁盘驱动器、大容量驱动器以及SSD)比起在传统阵列中的同款产品,价格要高出很多,这在很大程度上归因于厂商在阵列驱动器上所隐含的分层软件的开销。
在一些厂商的字典中,分层还有另一层含义,表示使用由DRAM或闪存SSD所组成的缓存来临时存储将要写入磁盘的数据,这样就可以同时接受多个访问请求。这种“热点数据”会临时性写入第0层存储(内存),为多用户请求提供比磁盘快很多的高速I/O访问。当请求数量下降时,数据被判断为“冷”,访问会被重新定位到原始的磁盘介质上。通过这种混合技术,以内存扩展磁盘性能,可以获取业内最高的读写性能而又无需为并行访问配置过多的条带化磁盘驱动器。
分层存储模式
如果你想在你的存储基础架构中部署高速存储分层,需要考虑以下几点:
1、了解哪些数据需要迁移。只是根据“最近访问的数据”指定迁移策略可能并不是最好的方式,因为可能需要排除应用软件和其它文件。可以从各种正式的SRM软件包中获取报告,找出应当在高速存储中驻留的数据。然后和数据管理者确认数据是否能安全地进行迁移。对于有些文件,即便其在90天内没有使用,可能也需登记在内。
2、了解你的存储以及向哪里迁移数据。有一些阵列允许数据简易交互,而另一些则会要求目标存储和数据原存储阵列出自同一厂商。在有些阵列中,厂商使用“开放API接口”,允许各种应用将数据写入其中,不过部署“封闭式API接口”会使得你的数据局限在某个阵列上。所以你需要理解HSM环境中每台目标阵列的功能和限制。
3、建模、模拟和测试。HSM软件包中通常有免费的使用时间,可以用以测试HSM环境。在迁移到生产系统之前应当对HSM环境进行充分测试。如果缺少了这个前提工作,你很可能会将文件移到较低的存储层,而用其它内容填补上层存储,当你要运行一项关键的年终汇报,不得不将原本降级的文件重新提升到原存储层时,却发现没有空间了。为了避免分层存储成为一部“血泪史”,请尽量耐心地测试每个步骤。
分层存储的真正挑战:明确使用目的
在最后的分析中,如果撇开混合技术,存储分层这一广泛使用的术语并没有什么实际价值。在有些情况下,其被认为是一种降低容量需求或提供容量分配有效性的策略。从技术上看,这两者在分层存储模式中都难以实现。虽然将数据迁移到较低的存储层或许可以节省上层空间,不过这绝非存储分层的核心目的。相反,分层技术致力于将存储置于合适的层级,使得数据访问频率和介质成本实现从商业角度来看是最高效的混合兼顾。因此,其宗旨是改善利用效率而非分配效率。
而另一部分厂商则从相反的角度出发,将存储分层划为归档技术,这很容易引起误解。在HSM环境中,数据根据访问频率从高速存储层移动到低速层。而归档通常是根据业务重要性程度而非单纯的访问频率确定目标的一组数据集合。使用业务数据内容的信息生命周期管理策略或许能产生更合理的归档策略;而非HSM这种模式。
值得一提的是,IBM推出的线性磁带文件系统(LTFS)增强了分层存储模式的应用领域。对于各种文件,在超过半数的新文件被创建并存储的今天,磁带文件存储利用磁带库配合前端LTFS服务器可以提供超高容量的存储平台,并较磁盘阵列实现总体应用成本的显著降低。考虑到用户文件的重复利用率在创建后的10到30天内显著下降,像NAS平台将旧文件迁移到磁带系统中就很有意义。
虽然LTFS的倡导者中包含主动归档联盟等,而事实上,LTFS磁带仍是根据访问频率进行存储分层和容量利用率的。随着LTFS文件存储的推出,存储分层或许能够实现其长久以来一直所倡导的商业价值。