云虚拟服务器(CVS)云存储的关键技术
云服务器怎么避免
分布式存储:
网络存储:分布式存储将数据分散存储在经过虚拟化形成的统一存储资源池中。
与分布式存储相关的技术:网络存储、分布式文件系统
网络连接存储NAS:
1、集成了操作系统和存储设备,提供跨平台的文件共享服务。将存储设备与主机分离,集中管理数据。
2、通过网络与应用程序连通。应用程序基于文件系统访问NAS。
3、通过操作系统将文件访问请求转换为数据块访问请求,将其发送到内部存储驱动器。具有易于安装、易于管理、文件共享和高可扩展性等优点。
4、根据需要动态地添加或删除NAS设备,操作方便,支持海量数据存储。
存储区域网络SAN:
1、利用光纤通道作为网络存储的连接技术,具有高带宽、低延时、低误码率等优势。
2、以数据存储为中心,采用可扩展的网络拓扑结构。
3、通过光通道直接连接,大大增加了服务器与应用系统的距离。
4、数据管理与存储集中化,最大限度地实现数据共享和数据优化管理。
5、满足数据的高效访问、高可用性、可扩展性、远程维护等要求。
分布式文件系统:分布式文件系统将基于单节点的文件系统扩展到多个节点,众多的节点组成面向分布式文件系统的计算机网络。目前应用于云存储领域的典型分布式文件系统有HDFS、GFS等。
基于GFS的服务器集群:
1、GFS分布式文件系统是Google提出的可扩展的分布式文件系统。
2、包含一个主服务器和多个数据块服务器,支持多客户端的并行访问。
3、文件被划分为固定大小的数据块进行存储。
4、创建数据块时,主服务器会为每个数据块分配固定的、唯一的句柄。
5、数据块服务器基于以Linux文件系统将数据块存储在本地硬盘上,并根据指定的块句柄和字节范围读写块数据。
6、每个数据块被复制为多个副本,多点存储。
7、主服务器管理文件系统元数据信息,包括命名空间、访问控制信息、文件到数据块的映射信息和数据块的当前位置。
8、GFS根据Google搜索等应用的特点进行多方面的优化,实现了成本、可靠性和性能的最佳平衡。
优点:
1、高效率:提供稳定高效的存储服务,克服或缓解网络环境的动态性对服务性能造成的影响,减少网络数据传输延时,提供数据缓存、负载平衡等机制。
2、高可靠性:保证数据高可靠性,采用有效的容错机制,解决节点失效,网络断开、资源损坏等问题。
3、高扩展性:适应节点规模和数据规模的增长,系统的存储容量、总吞吐率可以随着用户存储需求的增大而增大,以支持海量存储。
4、高透明性:实现位置透明性、故障透明性、迁移透明性、副本透明性和并发透明性。
5、自治性:实现分布式系统自治,具有自维护、自恢复等功能。
数据副本技术
技术内涵:
1、将数据复制成多份,通过网络分布到一个或者多个不同位置的系统中,防止数据被损坏而永久性丢失。
2、支撑负载均衡,减轻服务器的压力,避免单点故障或瓶颈造成服务中断。
3、在多个数据副本中,常设定其中一个副本为主副本,其他副本为二级副本。
复制模式:
同步复制模式:各数据节点之间频繁通信,实时完成所有数据副本的同步操作。
优点:数据多个副本保持高度数据一致性
缺点:开销较大。
异步复制模式:事务操作等不需要同时访问所有数据副本。
优点:异步处理数据的复制和更新操作,降低开销。
缺点:难以保证所有节点的数据高度一致性。
管理机制:云存储系统采用副本技术提高用户数据存储服务能力的同时,相应的产生副本管理的若干问题,高效的副本管理机制不可缺少。
不买云服务器备案
副本管理机制主要包括副本部署、副本数量控制、数据一致性保障以及副本删除等。
副本部署:当新数据到达云存储系统时,需要考虑其副本的放置节点、合适的副本数量,这些是影响数据可靠性、负载均衡性及访问延时等系统性能的重要因素。典型副本部署方式包括路径部署、源请求部署、邻居节点部署等。
路径部署:将副本发送到查询请求路径上的所有节点
优点:实现简单,数据查找方便。
缺点:创建的副本数量可能供过于求,增加维护一致性的开销。
源请求部署:仅发送副本给查询请求的发起节点
优点:采用轻量级自适应复制算法,减少了副本的部署数量。
缺点:易造成请求节点过载
云服务的服务器售价
邻居节点部署:保存副本访问历史记录,节点对某份副本的查询次数达到阈值,则新建该副本的一份新副本并将其发送到该节点的邻居节点
优点:减少了请求的跳数。
缺点:历史记录预测有一定概率的失误。
副本数量控制:
1、副本数量的确定与副本属性、系统环境、访问情况等因素有关。
2、当数据访问过热时,增加副本数量可缓解系统瓶颈问题,提高副本可用性;当数据访问较少时,减少数量可降低系统存储和副本更新开销。
3、决定副本数量:均匀复制,所有的数据对象都复制相同数量的副本;比例复制,副本数量与被访问频率成正比:方根复制,副本数量与被访问频率的平方根成正比。
数据一致性:
1、数据一致性是指保障复制源相同的多个副本之间的数据一致状态。
数据一致性类型:
弱数据一致性:最终达到数据一致状态
强数据一致性:要求数据保持一致状态。
2、Paxos算法:基于消息传递的一致性算法解决分布式系统中的数据一致性问题。
3、自适应副本一致性维护机制:包含数据副本的更新一致性和归并一致性的算法,实现系统副本一致性、可用性和系统性能之间的动态平衡。
副本删除
1、副本删除目的是整理存储空间,减少维护成本。
2、副本删除策略:如给副本设定生命周期则在生命周期结束时就删除副本;当副本的被访问频率很低时就删除副本;如果节点需要接纳新数据,而本身存储空间不够,则会删除一个或多个副本;如果节点的处理能力已达到极限,有时会新建一份副本到其他节点上以转移负载,并删除本地副本。
副本管理策略:
静态副本管理策略:副本的数量和位置在创建文件时确定,不会随系统状态的变化而变化。
优点:复制方案固定,简化后期副本管理的复杂性,结构相对简单。
缺点:需要对文件访问模式和访问节点范围进行预测,局限性大,性能低。
随着云存储系统规模的不断扩大和移动用户的不断增加,接入节点的位置和范围也会随时发生变化,静态副本管理策略在现代大规模分布式文件系统中具有很大的局限性和低性能。
动态副本管理策略:副本方案根据云存储系统当前状态而调整,包括副本数量的增减和副本位置的变化。可实现以最小的存储成本和网络成本获得更好的系统性能。
合理、高效的副本管理策略不仅能提高云存储系统的数据存储能力,还能提高存储数据的可用性、安全性和容错性等。
需要考虑的问题
1、在数据完整性被破坏时,使用备份的数据来恢复数据。
2、备份的数据由备份软件恢复成可用数据。
3、高等级的容灾系统常采用基于多数据中心的异地数据备份。
4、备份窗口:指允许完成数据备份作业的时间;数据备份导致主机的性能下降,使服务水平不可接受,解决途径包括改进备份算法速度、实现在线备份等。
5、恢复时间:当备份数据量较大或者备份策略比较复杂时,备份数据往往需要较长的恢复时间。
6、备份间隔:综合考虑数据备份对系统的性能影响和数据可靠性设置合理备份间隔时间。
数据的可恢复性:发生存储介质失效、人为错误、备份出错等情况,造成备份数据的不可恢复。
数据备份的成本:用数据冗余来提升系统的稳定性,高频率的数据备份的成本一般也较高。
典型云存储系统
AWS的S3:
1、Amazon云平台AWS的存储服务S3提供高度可扩展、持久、可用的云存储服务。
2、用户和应用程序通过互联网和Web服务接口访问S3数据资源。
3、S3利用访问控制等机制保证数据安全性支持数据读、写、删除等各种授权操作。
S3的基本数据结构
存储桶(Bucket):S3中对数据进行分类的一种方法。根据存储容器的不同,每个存储对象都必须存储在一个存储桶中。S3命名空间的最高级别,存储桶的名称必须是唯一的。
存储对象(Object):是用户实际想要保存的内容,由对象数据内容和元数据信息组成。对象数据通常是一个文件,元数据是描述对象数据的信息。
S3的技术优势:
1、持久性和可用性:存储在S3中的数据可同步存储在多个数据中心和设备中。S3内置了数据一致性保障机制实现了数据纠错功能。S3系统可以保护数据不受应用程序和S3版本控制意外删除的影响。
2、弹性和可扩展性:支持在任何存储桶中无限存储数据。自动复制数据副本并将其分发到其他服务器。
S3的性能优势:
1、高数据访问速度:支持多个线程、多个应用程序或多个客户端同时访问S3。S3与DynamioDB、Amazo RDS等结合使用来加快数据的访问速度。用户能够准确地定位数据对象并从S3中高效获取数据。
2、用户接口简单:S3提供了基于SOAP和REST的Web服务API。API提供存储桶和存储对象的管理和操作。
云服务器免费试验

扫码关注
微信好友
关注抖音