近年来,网络数据量呈爆炸式增长,然而这些数据很快就会由“热”变“冷”。以Facebook为例,经测试分析,其数据产生24小时内访问的频率非常高,而此后访问频率就越来越低,逐渐变为冷数据。Facebook自身的数据中心有89%的数据都是冷数据。华中科技大学信息存储系统教育部重点实验室主任谢长生表示,这些冷数据同样重要,许多大数据分析都要基于冷数据来进行,而且许多数据要求保存的时间非常长,例如银行、社保等数据,一般都要保存70~100年的时间。现在,我们对这些数据重视不够,往往用很贵的系统来存放这些冷数据,这一局面应该得到改变。
一般而言,数据中心80%以上的数据都是冷数据,现在人们一般将热数据存在SSD固态硬盘中,将温数据存在7200转的硬盘中,而将冷数据存放在低速硬盘上,浪费了大量的能源,成本非常高。那么,什么介质才是存储冷数据的最佳选择呢?谢长生对比了几种常见的存储介质。
硬盘的平均寿命为5年,5年后其损坏率就会急速提升。在磁盘阵列中,硬盘损坏的概率很高,硬盘5年要转移一次数据,对那些需要存放数十年的数据而言,不仅操作繁琐而且数据也容易丢失。
闪存作为长期保存介质也不是很好的方案。第一,其成本高,用于存放海量的冷数据太浪费;第二,闪存是基于电荷来存储数据的,寿命较短。
磁带具有容量大、成本低、能耗低等特点,适合用来存储冷数据。然而,磁带的寿命不长,平均寿命仅为10年,而且放置在潮湿的地方容易发霉损坏。
光盘用于存储冷数据具有很多优势。它是非接触的、很可靠、能耗低、成本低、寿命长,其唯一的缺点就是容量较小。
谢长生指出,光盘在容量方面最近取得了重大突破,200G容量的蓝光光盘已经实现了商用。光盘的成本非常低,在塑料上镀一层膜即可存储数据,而且能够很好地防水,平均寿命超过50年。日本科学家曾经做过一次实验,将光盘在海水中浸泡后,仍然能够正常读取数据。综合而言,光存储是目前最适合存储冷数据的介质。
当然,容量小仍是光存储的一大短板。为了破解这个难题,一些重量级的公司开发了大容量的光盘库,用于代替磁带库和硬盘来存储冷数据。Facebook通过这种方式,比用硬盘存储冷数据能耗和成本降低了一半。
我国业界在5年前就已看到了这一趋势,开展了大量的自主研发工作。华中科技大学信息存储系统教育部重点实验室就与国内厂商积极合作进行了相关开发,将大量的光盘虚拟化成一个大的文件卷,吞吐率通过24个光驱并行读写,相关技术在日内瓦发明博览会上得到金奖。
谢长生介绍说,在理论和功能上,他们推出了一种磁光电融合的技术,大部分由光盘组成,也存在着少量的固态盘和普通硬盘,将它们异构融合后虚拟化成一个大容量盘;热温冷数据是自动分级的,热数据存放在固态盘里,温数据放在普通硬盘里,冷数据放在光盘里。该技术最重要的应用场景就是数据中心。
目前我国在该领域的研究处于世界领先水平。谢长生指出,数据中心的冷存储是一个日益重要的问题,数据中心中80%都是冷数据,光存储是冷数据存储未来的方向,近年来光存储取得了重大突破,光存储将在数据中心广泛替代磁带库,超大容量光盘库也已经成熟,将进入规模部署阶段。