基于多指标的数据分级存储策略
分级存储采用的存储方式与选择的存储设备的依据是数据的重要性、访问频次等多个指标。多指标的数据信息分级策略,是指根据基于数据的生命周期、上次访问时间、大小、数据信息的关联性等多个参数对数据的价值进行分级。
如果数据一创建就能预测其访问特性进而给出相应级别,将能够减少不必要的迁移颠簸。因为数据分级变化意味着数据要在不同级别的存储设备间迁移,以保证合适的数据在合适的时间存放在合适的存储级别上。
在实际应用中,如能充分挖掘数据的静态特征和访问的动态特征为基础的分级将能获得更好的效果。如以文件分级为例,第一,文件系统的静态特征,如大小文件的分布;第二,文件系统的宏观访问规律,如大小文件的访问次数分布;第三,文件个体的访问模式,如是否具有访问局部性;第四,文件之间的访问关联特征,如同一作业中的一个文件被访问,另一个文件何时被访问。
根据这些文件特征和存储设备的分级情况,确定文件分级标准及文件分级变化的触发条件,从而可以在合适的时间把合适的文件存放在合适的存储级别上。
在线迁移中的一致性保证技术
在分级存储系统中,不可避免地要在不同存储设备上进行数据迁移,数据迁移可分为升级迁移和降级迁移。升级迁移是指数据由慢速存储设备和低一级存储设备往快速存储设备或高一级的存储设备迁移,降级迁移正好相反。但由于迁移目的不同,这两种迁移有不同的特征。
对于降级迁移来说,很可能在迁移的过程中并不会有I/O请求发生;但对于升级迁移来说,迁移几乎是发生在I/O最密集的时候,如何保证在迁移过程中,尽可能减小迁移进程对前台I/O的影响,这是分级存储系统需要解决的问题之一。
目前可以采用读写锁来保证数据一致性,以数据块为调度粒度来减小对前台I/O性能的影响。迁移进程为当前数据块申请读写锁,以保证迁移进程与写操作进程之间的数据一致性。
数据自动迁移存储技术
分级存储中数据需要在线迁移,这就需要考虑数据移动对前台I/O负载的性能影响。数据自动迁移技术是指最大限度的降低数据迁移动作本身对计算结点的I/O性能影响,且对前端透明,它根据前台I/O负载的变化,来调整数据迁移速率,使得数据迁移动作本身对存储系统的QoS的影响非常小,同时使得数据迁移任务能够尽快完成。数据自动迁移存储涉及的主要技术有:数据迁移的速率控制与调度、数据迁移对应用的延迟隐藏、文件访问块位置序列预测等等。
在实际应用中,当数据信息达到迁移触发条件时,数据迁移结点自动迁移数据,从而实现数据信息的降级或升级存储,如数据升级迁移对用户的延迟隐藏技术使得应用程序感受不到数据升级迁移的延迟,并使整个存储系统的性能与最高性能级别的存储设备相当。
目前,分级存储管理更多从降低成本、不影响数据应用效果、提高效率的角度解决数据的存储问题。随着单盘成本的下降。
有业内专家预测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史数据。而成熟完善的数据迁移技术将更好地融入到近线存储设备中,为分级存储的发展起到关键的推动作用。