1、分布式存储

分布式存储系统(Distributed Storage System,DSS),也指分布式文件系统(Distributed File System,DFS)。分布式存储,从原理上讲,是将数据文件分散地存储到集群服务器上,而构建集群的服务器往往由低成本的商用硬件组成。用户利用系统提供的接口方便、快捷地访问存储系统,系统内部通过软件和硬件共同协作完成用户操作指令。

2、分布式存储技术

(1) *** 存储技术

① *** 连接存储(Network Attached Storage,NAS)

NAS主要组件包括NAS头和存储阵列,NAS头主要由四个部分组成,包括 *** 接口、 文件共享协议、 专用的操作系统以及底层的存储接口。存储可以位于NAS内部,也可以独立于NAS作为单独的存储阵列存在。客户端用户可以通过专有的文件共享协议,如Windows用户可以利用CIFS协议、Unix用户利用NFS协议,经过普适的IP *** 访问NAS设备上的存储资源。NAS头部在接收到用户的文件访问I/O后,通过其内部专用的操作系统将其转换为数据块I/O,并结合操作系统记录的文件位置,进行文件的存取工作。

优点:提高传统存储环境的扩展性,并且整合服务器和存储资源以进行统一管理,简化管理任务

缺点:无法满足高性能要求,不适合于对存储介质进行复杂操作的任务

②存储区域 *** (Storage Area Network,SAN)

根据数据在服务器和存储设备之间传输协议的不同,SAN主要分为光纤通道SAN和IP SAN两种类型,SAN主要由服务器、 存储设备以及 *** 连接三部分构成。服务器通过 *** 连接和常见的串行SCSI协议FCP(Fiber Channel Protocol),来远程访问存储设备上的数据资源。SAN将应用与存储分离,在降低了应用存储耦合的基础上,分离了两者的管理工作。在光纤通道SAN中,服务器与存储设备的连接渠道包括集线器,交换机和导向器,通过专门搭建的基于光纤通道的 *** ,能够实现数据的稳定、高速传输。而在IP SAN中,数据传输的渠道是通用的IP *** ,可以利用现有的 *** 连接迅速构建简易的IP SAN,方便灵活。

优缺点:基于光纤通道的SAN由于需要搭建专用的 *** ,成本高昂,维护难度较大,并且性能也与现有IP SAN相差无几,无法体现出自身的性能优势;而IP SAN受限于传统IP *** 的性能和稳定性,无法达到光纤通道SAN的高速、稳定的特性。

(2)分布式文件系统

①Google File System(GFS)

GFS是Google公司云计算基础设施中负责分布式数据管理的重要子系统,是一个面向大规模分布式环境的、 高可用、 高可靠、 高可扩展性的分布式文件系统,用于对大量数据的存储和管理。

②Hadoop File System(HDFS)

GFS源于Google公司自身的业务和应用服务要求,其具体的工程实现细节并未完全公布。研究人员根据GFS论文的核心设计思想,在Amazon、Yahoo 等IT 巨擘的牵头下,设计了一种新的面向分布式环境、高可靠性、高性能的分布式文件系统HDFS。该文件系统最初是作为Apache Nutch搜索引擎工程的底层基础架构而研发的,属于Apache Hadoop Core项目的重要组成部分,主要用于数据的分布式存储以及计算任务。

③Ceph

Ceph是一种新的、开源分布式文件系统,是Sage Weil在加州大学圣克鲁兹分校攻博期间负责的关于存储研究的项目,用于面向高性能、高可靠性、大规模的分布式环境。Ceph的生态系统包括四个组成部分,它们是客户端(Client)、元数据服务器(Metadata server cluster)、对象存储集群(Object storage cluster)和集群监视器(Cluster monitors),目前Ceph已经被用于实际生产环境中,许多大型IT及互联网公司,如华为、沃尔玛、Bloomberg、AT&T,eBay等均将Ceph用于其分布式文件系统以及存储系统的构建。

(3)P2P存储技术

在P2P存储中,所有节点地位均等,既可以是客户机,也可以是服务器。每个节点可以同时提供存储服务和访问其他节点的存储服务,打破了节点角色的壁垒,充分利用了节点自身的存储和计算资源。现有P2P存储技术主要包括OceanStore、PAST、CFS、Dynamo。

(4)新型存储技术

①基于对象的存储(Object-based Storage Devices,OSD)

OSD系统通常由三个组件构成,它们分别是OSD节点、 内部私有 *** 以及存储系统。OSD节点主要负责元数据服务和存储服务,不仅如此,它还负责维护对象ID与文件系统域名空间的映射关系。内部 *** 保证了节点与存储系统、多节点之间的互联互通。存储系统通常由廉价、高密度磁盘组成,用于存储对象。

②统一存储

一个统一存储系统主要包括底层存储系统、存储控制器、NAS机头、OSD节点以及相应的访问协议。存储控制器可以通过iSCSI、FC和FCoE协议,为应用服务器提供基于块级的数据存储和访问。NAS机头通过CIFS和NFS协议,可以为NAS 用户提供文件级的存储和访问服务。OSD节点通过REST和SOAP协议,以及对应的API为应用服务器提供对象级别的访问服务。应用服务器或者用户无需知晓底层实现细节,只需要根据数据访问的粒度,选择合适的协议就可以在统一存储的平台中进行数据的读写,方便快捷。现有的统一存储产品,如EMC VNX、Huawei OceanStor T系列,已经能够为企业级用户提供统一存储的服务。

3、分布式存储与传统存储的区别

(1)高性能,每个节点服务器都具有单独的处理数据请求的能力,集群中所有节点并行执行不同的处理请求,每当有新的节点加入集群,总资源池都会得到增长,系统性能得到提升

(2)高可靠性,能够有效避免SPoF问题的出现,当系统中某一节点服务器出现宕机或者其他故障时,系统服务不受影响

(3)低成本,能够很大程度地减少建立基础设施的成本,同时数据管理的成本也会有效减少

(4)高扩展性,可以通过更多的添加服务器节点实现系统的水平扩展,从而线性地提高系统总体容量与性能,并减轻对特定设备的依赖

推荐内容