腾讯云服务器平台云计算系统监管
云帮手服务器价格
云计算系统的资源监管对象
重点监管的资源
1、云计算系统监管包含对云系统软硬件资源和各类业务的监测和管理。
2、计算资源:特定计算模型下,解决特定问题所消耗的资源。
3、计算机资源:CPU、内/外存储器、各类接口控制器、网络适配器等硬件设备。数据、系统、应用等软件资源以及虚拟机、容器、进程等运行实体。
4、计算资源:特定计算模型下,解决特定问题所消耗的资源。常用的衡量指标包括CPU计算时间以及占用的内存空间等。
5、存储资源:持久化存储数据文件的能力。常用的衡量指标包括外存储空间的大小等。
6、网络资源:将多个计算、存储节点相连的交换机、路由器、电/光缆、网络软件等资源。常用衡量指标:带宽、时延、误码率等
云计算系统拥有的资源类型复杂、规模巨大提供服务的过程中要求资源协同工作。
云计算系统中的可用资源动态变化:资源池中的资源随时可能被应用租用,被租用的资源随着服务的终止而被释放回资源池中;服务器、网络设备发生故障时会导致资源变化。云计算系统需要分布式、可扩展、能适应资源动态变化的监管架构。
云计算系统的资源监管目标
资源监管的主要目标:
1、自动化监管:云计算系统需要在尽量少甚至不需要人工干预的情况下自动完成资源部署、资源配置、资源监测、资源管理、资源调度等各项监管功能。
2、资源优化:云计算系统需要灵活实施负载均衡等多种资源调度策略来对系统资源进行统筹安排。
3、虚拟资源监管:虚拟资源是在物理资源上实施虚拟化技术后产生的,动态地对虚拟机、容器等虚拟资源进行监管尤为重要。
4、弹性可伸缩:云计算系统可根据系统规模、资源种类数量的变化,按需调节资源的监管能力。
云计算资源监管系统架
云计算系统中的资源:计算资源、网络资源、存储资源,还包括由虚拟化技术抽象出的虚拟资源。
云计算资源监管系统:物理资源监管虚拟资源监管、资源监测和系统管理四个模块,实现对云资源全面、有序的监管。
云计算系统的资源监测
云计算系统资源监测的挑战
资源监测的必要性:
1、对系统的可用资源、计算效率、系统安全等多方面进行实时监测。
2、计量和评估以满足用户的需求,提高系统的运行效率。
3、将大规模物理资源及虚拟资源进行整合,实现服务的动态伸缩,将服务按需提供给用户。
4、监测获取大量的运行数据,支持系统实现合理的资源管理、资源调度、负载均衡、故障恢复、性能预测等任务,及时发现系统故障,保证系统服务质量
资源监测的必要性
1、系统规模巨大:大规模云计算系统通常基于多云数据中心,包含了数以万计的物理服务器,每个物理服务器上又运行着数十个虚拟机。
2、资源异构性:云计算系统中的服务器、操作系统、数据类型等多样异构,性能、配置千差万别。
3、服务多样性:云计算系统提供了计算、存储、网络等各类服务,不同的服务需要监测的内容和目标也不相同。
4、资源动态性:云计算系统中的资源动态变化,需要定期、不定期地更新监测对象。
5、性能与监测矛盾性:云计算系统的资源监测不能影响系统本身的正常运行,需要实现资源监测性能和系统正常运行之间的平衡。
资源监测的需求
1、资源监测须从全局出发,监测相关联的所有组件,给出基础设施资源的可用性和消费报告。
2、不仅需要监测物理服务器,还需要监测物理服务器上运行的虚拟机。
3、保证监测的可扩展性、均衡性、易部署性。
4、云计算系统的资源中存在大量冗余信息。在不影响监测任务的基础上有效过滤冗余信息,重点呈现有价值的监测信息,减少不必要的网络开销,减轻监测负载。
5、提供支持有效管理的可视化监测界面,以便系统管理员快捷了解云计算系统全局和局部资源的状况。
可扩展性:适应云计算系统动态增加资源的变化,实现监测能力的动态可扩展。
准确性:实现获取监测信息和计算测量的高准确程度。
自治性:实现在动态环境中工作的自主监测能力。
全面性:具备多种资源的监测数据收集与分析能力。
集中式监测架构:云计算系统的监测主要采用集中式监测和分布式监测这两种架构。这两种监测架构有显著的不同,但两者仍可以相互补充,满足各类资源的监测需求。
1、由监测节点(主节点)和被监测节点(数据节点)组成。
2、监测节点直接监测所有被监测节点的运行状态。
3、监测节点处理获取的监测数据。
集中式监测流程
1、在被监测节点上安装监测代理守护进程,守护进程负责采集每个被监测节点上设定的监测信息。
2、守护进程主动、周期性地向监测节点推送监测信息。
3、接收监测节点命令,被动地推送监测信息。
4、监测节点全面分析由监测代理守护进程推送的监测数据,并展示分析结果。
集中式监测优缺点
优点:
1、低延时性:监测节点直接与被监测节点通信无须中间传输,能够快速收集被监测节点上的数据。
2、易管理性:监测节点向指定的监测代理发送控制指令,实现监测的动态配置和管理。
3、方便部署:只有监测节点和被监测节点,功能模块关系简单,且易于增加或减少被监测节点,易于启动监测服务。
缺点:
1、单点故障问题:在只有单个监测节点的情况下,一旦监测节点出现故障,整个监测就会瘫痪。
2、性能瓶颈问题:随着监测代理的数量增加,监视节点的并发流量和工作量将迅速增加,会出现网络堵塞和性能瓶颈,监测响应时间显著延长,导致监测实时性下降。
分布式监测架构
1、当节点规模庞大、环境复杂、集中式监测不能满足监测需要时,可采用分布式监测方式。
2、由中心监测节点、多个局部监测节点以及被监测节点组成。
3、采用分布式汇聚的方式来完成监测任务。
4、将整个监测网络划分为一个个局部监测域,减轻中心监测节点的监测负载
饥荒云服务器漂移
5、每个局部监测域采用集中式架构,设置一个局部监测节点,负责监测该子域内所有节点,独立处理本域的监测数据,并将信息向上汇报。
6、中心监测节点不再直接接收被监测节点的监测信息,而是接收局部监测节点汇聚的本域监测信息。
7、分布式监测架构本质上是由一个个局部的集中式监测架构组合而成的。
分布式监测优缺点
优点:
1、适合被监测节点规模较大的网络系统。
2、降低了监测系统内部每个监测节点的工作负载,缓解了网络拥塞和系统瓶颈问题。
3、局部监测域运行异常不影响其他局部监测域,隔离了故障,提升了整体稳定性
缺点:
1、被监测节点较多时,系统的层次增多结构变得复杂,系统部署更为烦琐。
2、中心监测节点与被监测节点的通信需要通过局部监测节点转发,增加了延时。
监测数据采集
云存储作为服务器
监测数据的分类
为了达到有效监测的需求,需要对资源多个方面的信息进行采集、传输和处理。
静态数据:与物理节点和虚拟机本身相关的监测数据。包括主机名、主机IP地址、CPU个数、存储空间等。
动态数据:与资源使用情况相关的监测数据;包括CPU利用率、内存利用率、网络吞吐量等。
分类的好处是减少了监测数据传输占用的网络带宽,静态数据只需要传输一次,从而可避免重复数据的传输。
物理节点数据采集:利用Linux操作系统的/proc组件收集、保存物理节点数据。
虚拟机数据采集:云平台OpenStack,虚拟机数据可以通过底层的Hypervisor进行采集。而OpenStack使用Libvirt APl从Hypervisor获取虚拟机的资源使用情况。Libvirt是一款开源、免费的C语言函数库,支持KVM等虚拟化系统。
分布式协同监测模型
1、为了降低网络资源的消耗和主监测节点的负荷,采用一种高度分散和协作的监测架构。
2、分布式协同监测模型:主要包括主监测节点(MN)、数据节点(DN)、消息路由器以及数据节点上运行的守护进程。
3、数据节点彼此间存在监测关系,同一个节点既是被监测节点,也是监测节点。
4、数据节点可以是物理服务器节点,也可以是虚拟机。
分布式协同监测的原理
1、基于消息队列机制,采用先进消息队列协议(AMOP)作为消息传递协议实现节点间通信。
2、消息路由器维持一个全局队列以及多个与数据节点相对应的消息队列。
3、全局队列被用来接收被监测节点周期性的心跳信息,证明节点活性。
4、这种方法已在目前的云基础设施得到应用,例如开源云平台OpenStack。
分布式协同监测拓扑结构
分布式协同监测拓扑结构
1、分布式协同监测拓扑在逻辑上是一个包含一个核心的环状拓扑。
2、数据节点DN1的前继节点是数据节点DN8,节点DN1的后继节点DN2,节点DN1仅受到节点DN2的监测,同时DN1仅负责监测DN8的状态。
3、在这种拓扑结构中,由DN2负责收集DN1的监测数据,向主节点MN发送异常监测数据。
4、云基础设施中的每个数据节点都维持局部路由表。
5、主监测节点维持着全局路由表来保证局部路由表的准确性。
分布式协同监测的流程
包括:加入网络→正常运行→退出网络。
数据节点首次加入网络系统时:
1、运行在该节点上的守护进程与消息路由器通信,消息路由器为节点建立消息队列。
2、该节点主动向主节点汇报其信息,主节点将信息插入全局路由表。
3、主节点将合适的前继节点的信息推送给该节点。
4、该节点向消息路由的全局监测队列发布一个主题为登录的消息包。
5、主节点从消息包中提取所需监测的节点信息(NID,IP,QID)以及前继节点信息。
6、主节点修改全局路由表。
分布式协同监测模型
分布式协同监测的流程
系统正常运行时:
1、数据节点的状态分为5种:轻松、正常繁忙、严重、宕机。
2、每个数据节点监测其前继节点,同时被其后继节点监测。
3、分布式协同监测的负载被均衡地分散到各个数据节点上。
4、每个数据节点周期性地向消息路由器中对应的消息队列推送自身状态信息
5、每个数据节点持续监听其前继节点对应消息队列,获得其前继节点的状态信息
当单个数据节点发生宕机时:
1、数据节点的后继节点发布宕机消息包。
2、主节点订阅全局消息队列,及时获得宕机消息,并修改全局路由表。
3、删除该数据节点记录,建立该节点的前继节点和后继节点间的监测关系。
成片数据节点失效时:
1、循环执行单个数据节点退出网络的处理流程。
2、环状网络拓扑重建完成,监测网络恢复正常。
阿里云服务器网站

扫码关注
微信好友
关注抖音