文章快速检索     高级检索
  浙江大学学报(工学版)  2017, Vol. 51 Issue (6): 1181-1189  DOI:10.3785/j.issn.1008-973X.2017.06.016
0

引用本文 [复制中英文]

游录金, 卢兴见, 何高奇. 云环境亚健康研究[J]. 浙江大学学报(工学版), 2017, 51(6): 1181-1189.
dx.doi.org/10.3785/j.issn.1008-973X.2017.06.016
[复制中文]
YOU Lu-jin, LU Xing-jian, HE Gao-qi. Research on sub-health in cloud environment[J]. Journal of Zhejiang University(Engineering Science), 2017, 51(6): 1181-1189.
dx.doi.org/10.3785/j.issn.1008-973X.2017.06.016
[复制英文]

基金项目

国家自然科学青年基金资助项目(61602175);中国博士后科学基金资助项目(2016M591617);华东理工大学基本科研业务费专项基金资助项目(222201514331);上海市软件和集成电路产业发展专项基金资助项目(150809);浙江省现代服务业电子服务工程技术研究中心开放基金资助项目(2016-ZJESC-KFJJ-003)

作者简介

游录金(1976—),男,博士生,从事云计算和大数据研究.
orcid.org/0000-0003-3105-7440.
E-mail: lujin_you@dnt.com.cn

通信联系人

卢兴见,男,讲师.
orcid.org/0000-0002-5235-7349.
E-mail: luxj@ecust.edu.cn

文章历史

收稿日期:2016-10-31
云环境亚健康研究
游录金1 , 卢兴见2,3 , 何高奇2     
1. 同济大学 电子与信息工程学院, 上海 200233;
2. 华东理工大学 信息科学与工程学院, 上海 200237;
3. 上海交通大学 智慧城市协同创新中心, 上海 200240
摘要: 云环境亚健康状态诊断与分析是云环境健康状况评估领域亟待解决的关键难题, 迫切需要一套可度量、可量化的指标和模型来进行云环境亚健康状态的理论分析与系统评估.结合医学领域亚健康的概念及模型, 提出云环境亚健康状态的定义及内涵, 并从云环境健康标准及测评体系、云环境亚健康状态形式化模型、云环境亚健康状态诊断及分析、云环境亚健康状态治疗等方面总结云环境亚健康研究的知识结构;从云监控、云架构、云平台性能评价与分析、云平台能耗控制、云安全等方面对云环境亚健康相关的研究现状进行总结与分析.
关键词: 云计算    亚健康    系统评价与分析    云监控    云安全    
Research on sub-health in cloud environment
YOU Lu-jin1 , LU Xing-jian2,3 , HE Gao-qi2     
1. College of Electronics and Information Engineering, Tongji University, Shanghai 200233, China;
2. School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China;
3. Smart City Collaborative Innovation Center, Shanghai Jiao Tong University, Shanghai 200240, China
Abstract: Diagnosis and analysis of sub-health status in cloud environment is a key problem of cloud environment health assessment and analysis. A series of measurable and quantifiable indicators and models are urgently required for the theoretical analysis and system evaluation of sub-health status in cloud environment. The definition and connotation of sub-health status in cloud environment were proposed; the knowledge structure that was summarized, in terms of the standard and evaluation system of cloud health, and the formal model, diagnosis and analysis, and the treatment of sub-health status in cloud environment. The existing work on cloud environment sub-health was also summarized, in terms of cloud monitoring, cloud architecture, cloud platform performance evaluation and analysis, energy control, and cloud security.
Key words: cloud computing    sub-health    system assessment and analysis    cloud monitoring    cloud security    

云计算凭借便利、经济、高可扩展性等强大的优势, 正成为继互联网经济以来的又一个重要的IT产业增长点, 具有广阔的市场前景[1].但是, 云计算不断朝规模扩大化、数据海量化、结构复杂化发展的趋势给云计算系统的评价与分析, 尤其是云环境的健康状况评估带来了巨大挑战.

如何对云环境的健康状况进行系统地评价与分析, 成为了云计算快速发展的重要需求.云环境亚健康状态诊断与分析是云环境健康状况评估的重要方面, 也是当前云环境健康状况评估亟待解决的关键难题.由于云计算系统的高度复杂性, 亚健康成为了当前主流云平台的真实写照.

虽然当前主流云平台都能正常提供服务, 但效率或性能等服务质量没有达到预期要求.随着用户和规模的不断扩大, 在外界不利因素的刺激下, 云环境亚健康状态很容易向故障状态倾斜.因此, 如何快速识别云环境的亚健康状态, 并进行相应地优化、调整, 使其向健康状态转化,格外引人关注.

云环境健康状况评估, 尤其是云环境亚健康状态的诊断及分析是一个全新的领域, 相关的研究基础很少, 其定义、模型、诊断及治疗方法都还不清楚.本文旨在通过分析云环境亚健康状态诊断及分析的重要性, 借鉴医学领域亚健康的概念, 给出云环境亚健康状态的定义及内涵, 并总结云环境亚健康研究的知识结构及主要研究内容, 最后重点分析医学亚健康、IT系统评价及分析、云环境亚健康等相关领域的研究现状和基础, 以期为未来云环境亚健康的研究作出有益探索.

1 云环境亚健康状态定义及内涵

亚健康最早出现在医学领域, 是现代医学中的一个全新概念[2-3].尽管亚健康是目前健康和疾病预防研究中的热点问题, 但对其客观评价与量化诊断研究尚处于起步阶段.在IT系统, 尤其是网络系统中, 贾平[4]提出要关注网络的亚健康状态, 黄大荣等[5]对网络系统亚健康状态的性能退化评估模型也进行了一些研究, 但截至目前还没有关于网络系统亚健康状态的统一、明确定义, 相关的分析诊断及治愈方法研究较少.

能够正常提供云平台相关服务, 但在提供服务的能力、效率、可靠性、可伸缩性等质量上有所欠缺或没有达到预期的一种介于健康和故障之间的状态称为云环境的亚健康状态.云环境亚健康状态是一种临界状态, 它既可以向健康状态转化, 也可以向坏的方向转化为故障状态.处于亚健康状态的云环境没有明显的故障或停机行为, 但具有一些潜在问题, 如存储系统中垃圾文件的累积、内存消耗过大, 安全威胁严重等, 从而表现出系统效率和适应性的下降, 并最终导致云服务质量的下降.

与医学中把亚健康分为以躯体症状为主的躯体性亚健康、以心理症状为主的心理性亚健康、以人际交往中的不良症状为主的人际交往性亚健康及道德方面的亚健康相似[6], 云环境亚健康状态的内涵中也应该包含以系统架构缺乏弹性、可扩展性等为主要症状的架构性亚健康、以系统性能达不到要求为主要症状的性能亚健康、以能耗开销控制达不到预期为主要症状的能耗亚健康、及以系统安全性不够为主要症状的安全性亚健康等方面.

为准确评价云环境的亚健康状态, 针对影响云环境亚健康的4个重要的维度变量:系统架构、性能、能耗控制和安全, 提出一个基于多级模糊综合评判的云环境亚健康状态诊断模型, 该模型中,U={u1, u2,…, un}为一级评价因素或评价因素类, 本文中具体的影响因素集合可表示为

$ U = \left\{ {系统架构, 性能, 能耗控制, 安全, \cdots } \right\} $

A为模糊权向量,ak表示第k类评价因素对应的权重,则有

$ A = \{ {a_1}, {a_{2, }} \ldots, {a_n}\}, 0 \le {a_k} \le 1, \sum\limits_{k = 1}^n {{a_k} = 1} . $

在二级评价因素中, U1={u11, u12, …, u1j}表示第一类评价因素对应的二级评价因素集合, 如:系统结构={可扩展性, 开放性, 可靠性, 完整性, …}表示系统架构需要考虑可扩展性、开放性、可靠性和完整性等因素.同理, Ai={ai1, ai2, …, aij}表示第i类评价因素里各二级评价因素对应的权值集合.

V={v1, v2, …, vm}表示适用于各种评价因素的等级评语集合, 本文中具体的等级评语集合为

$ V = \left\{ {故障状态, 亚健康状态, 健康状态} \right\}. $

在确定了评价因素, 等级评语和模糊权向量之后, 欲对云环境的健康状况进行评价, 还需要构造当前云环境下各种二级评价因素的隶属度矩阵.

Ri为第i类评价因素里二级评价因素对等级评语的隶属度矩阵, 根据其二级评价因素的不同, 假设Rinim列, 每一个行向量表示相应二级评价因素对各等级评语的隶属度.

为了进行云环境亚健康状态的诊断, 第i类评价因素的模糊权向量Ai与其二级评价因素的隶属度矩阵Ri将首先进行合成, 以得到云环境健康状况在第i类评价因素上的模糊综合结果向量Bi=Ai·Ri={bi1, bi2, …, bim}, bij表示在第i类评价因素上对第j个等级评语的隶属度, 其合成公式如下:

$ {b_{ij}} = {\rm{min}}\{ 1, \sum\limits_{i = 1}^{{n_i}} {{a_{ij}}{r_{ij}}} \}, 1 \le i \le n, 1 \le j \le m. $

然后根据各类评价因素的权重, 对其模糊综合结果向量进行加权平均, 得到最终所有因素对云环境健康状况的模糊综合向量B={b1, b2, …, bm}.

$ {b_j} = \sum\limits_{i = 1}^n {({a_i} \cdot {b_{ij}})} {\rm{ }}, 1 \le j \le m. $

模糊综合结果B描述了当前云环境整体对各个等级评语(故障、亚健康、健康)的隶属度, 为了确定当前云环境的主要状态, 可根据最大隶属度原则来判断, 即, 若

$ {b_r} = \mathop {{\rm{max}}}\limits_{1 \le j \le m} \{ {b_j}\}, $

则云环境总体上隶属于第r等级.这样, 就可以很容易判断当前云环境是否处于亚健康状态.

2 云环境亚健康研究的知识结构

图 1所示为云环境亚健康研究的知识结构.在云环境亚健康评价方面, 主要包括根据专家知识或统计数据建立的云环境健康标准及测评体系, 以及基于该体系建立的云环境亚健康状态的形式化模型;在云环境亚健康状态诊断及分析方面, 主要通过面向亚健康的智能云监控来收集影响云环境亚健康的系统架构、性能、能耗控制、安全等方面的运行时数据, 并结合前面建立的形式化模型, 采用基于人工智能、模式匹配的方法来判断当前云环境是否处于亚健康状态;在云环境亚健康的治疗方面, 主要针对当前的亚健康状态, 采取相应的优化配置及调度手段, 改善云环境的健康状况;此外, 亚健康的诊断分析及治疗结果还可以作为云计算系统管理与调度的决策支持, 方便系统管理员更好地管理不断复杂的云环境.

图 1 云环境亚健康研究知识结构 Fig. 1 Knowledge structure of cloud environmentsub-health
2.1 建立云环境健康标准及测评体系

云环境健康标准是度量云计算系统健康状况的尺度, 也是实现云环境亚健康状态诊断及分析的重要依据.建立云环境健康标准及测评体系的方法需重点关注以下几方面的问题.

首先, 云环境健康标准不仅应支持不同云平台用户描述其希望达到的健康目标, 指定其部署或享用的云服务健康状况指标, 还要求提供工具或系统能让云平台用户在一定权限内查看系统运行的健康状况信息.其次, 云环境健康标准应支持对灵活、复杂的云服务过程的健康状况进行评估.针对云服务商在提供服务时可能租用其他提供商的服务这一灵活、复杂的云服务过程, 应提供跨不同服务商的云环境健康状况的计算和评估方法.此外, 云环境健康标准应规定云环境健康目标的验证方法和程序.用户自身缺乏举证能力, 往往不能判断当前是否达到云服务商宣称的健康水平, 因此, 还需要第三方机构收集云平台的健康状况信息, 定义统一、标准的证据提取及交付方法.

2.2 建立云环境亚健康状态的形式化模型

欲实现对云环境亚健康状态的诊断及分析, 首先需要根据云环境健康标准及测评体系确定云环境亚健康状态的概念及内涵, 并建立云环境亚健康状态的形式化模型.将形式化模型引入云环境亚健康状态的研究, 是希望能像其他工程学科一样, 使用适当的数学模型方便对云环境的亚健康状态进行诊断及分析.对云环境亚健康状态进行建模时需要在充分考虑云环境健康标准及测评体系的基础上, 根据亚健康的特征, 明确其各项表征因素, 然后采用一种合适的数学模型把这些因素合理地组织起来.在考虑使用何种数学模型时, 除了要考虑能否很好涵盖亚健康状态的影响因素之外, 还要考虑是否有适当的方法或工具能够方便求解.

2.3 面向亚健康的智能云监控研究

在进行云环境健康状况分析、亚健康状态诊断及治疗时首先需要获得当前云环境的各种运行时信息.由于云环境亚健康状态定义及内涵中涉及云环境诸多方面, 包括云计算中心的系统架构、性能、能耗控制及安全等, 因此, 建立一个能够涵盖上述所有因素, 专门面向亚健康状态诊断的智能云监控系统就显得格外重要.尽管当前产业界上已出现了一些云监控系统, 但其功能比较简单, 监控的对象不够全面, 支持的规模也较为有限, 运行时开销、效率还远未达到人们的预期, 仍有许多关键问题尚未解决.因此, 研究面向亚健康的智能云监控不仅有广泛的应用需求, 还有广阔的研究前景.

2.4 云环境亚健康状态的诊断及分析研究

云环境亚健康的形式化模型提供了一个严谨、直观的形式化方式, 明确了什么样的健康状况表示亚健康状态;面向亚健康的智能云监控提供了可能造成云环境亚健康的各种运行时数据.结合这两方面的信息, 采用人工智能、模式匹配等方法来判断当前是否处于亚健康状态就是云环境亚健康状态诊断及分析.由于亚健康状态形式化模型的不同, 可使用的诊断及分析方法也较多, 如基于神经网络、粗糙集、遗传算法、故障树的诊断方法, 以及面向状态检测的模式匹配算法等.另外, 近年来人工智能的迅猛发展也为状态诊断及分析提供了许多新的理论基础, 出现了基于知识、不需要对象精确数学模型的状态诊断方法.结合云环境的具体情况, 选择哪种方法可以快速、高效地实现亚健康状态的诊断及分析是需要重点关注的问题.

2.5 云环境亚健康状态的治疗研究

仅对云环境亚健康状态进行诊断还不够, 诊断通常只是手段, 优化与提升才是最终目的.因此, 通过对云环境亚健康状态进行诊断分析并确定当前处于亚健康状态时, 需要对其进行治疗, 通过采取一系列具有针对性的动态资源调整, 任务实时调度及运行环境的相关配置优化等手段, 使云环境的亚健康状态向健康状态转化, 不断提升服务质量水平, 最终达到高度优化的健康状态.由于云环境的高度复杂性, 其亚健康状态往往涉及很多因素, 不同因素之间相互影响, 相互关联, 使其治疗面临许多挑战, 还有大量关键问题需要解决.因此, 治疗也是云环境亚健康状态研究的重要内容.

3 云环境亚健康相关研究现状

自20世纪80年代提出亚健康概念以来, 医学领域就开始了相关研究, 目前已进入空前活跃的阶段[7].在亚健康评价分析方面, 一些基于数学模型的亚健康状态评价及影响因素分析方法得到了大量应用.黄鹂等[8]提出的基于决策树的亚健康状态影响因素模型具有结构简单、分类准确的优点.在亚健康量化诊断方面.王利敏等[9]提出了一种基于结构方程模型的亚健康状态中医症候量化分析方法.罗晓芳[10]利用人工神经网络与模糊集的理论和方法构造了一种亚健康状态的分类器模型.

尽管从产业界角度来看, 当前许多云环境都处于亚健康状态, 并且亚健康在网络系统的故障诊断及可靠性研究方面已得到初步应用[5], 但是, 亚健康在云环境中的研究还很少, 跟云环境亚健康直接相关的研究基础甚是薄弱.下面将从IT系统评价及分析、云环境亚健康间接相关的多个方面对当前云环境亚健康的研究现状进行总结.

3.1 IT系统评价及分析研究现状

系统评价既是系统分析的后期工作, 又是决策分析的前期工作, 是系统工程理论和方法体系的核心部分[11].虽然医学领域产生了一些用于亚健康状态评价分析及量化诊断的方法, 但由于IT系统与人体构造有很大差别, 这些评价分析及量化诊断方法不能完全照搬直接应用到云环境的亚健康研究中来, 还需针对云环境的具体情景, 借鉴IT系统评价及分析方面的研究成果, 找出适用于云环境亚健康研究的模型和方法.

3.1.1 信息系统整体性评价

华侨大学经济管理学院郭东强主持的“关于管理信息系统综合评价的数学模型的研究”利用矩阵和模糊数学的方法建立了一个信息系统的定量化模型, 并用来进行简单的评价[12].北方交通大学自动化研究所闵文杰等[13]的“信息系统评价体系及方法的研究”提出了包括系统技术水平、性能、效益、科技投入水平、价值及操作6个准则的信息系统评价体系, 并用模糊综合评价方法和人工神经网络方法进行了研究.另外, 汤志伟等[14]针对信息系统的特点和小波基具有很强的自适应性和函数变化能力, 提出了一种基于小波神经网络的信息系统综合评价模型, 为信息系统的评价研究提供了一条新的途径.

上述信息系统整体性评价方法为云环境健康状况的整体性评价提供了很好的借鉴意义.总体来看, 当前在信息系统整体性评价方面, 结合不同方法对信息系统进行多指标综合评价的研究较多, 这类方法先定义信息系统的若干评价指标, 然后对各指标给出表示系统优劣程度的值, 最后用加权等方法将各指标组合成一个综合指标并进行评价.由云环境亚健康状态的定义及内涵可知, 影响云环境亚健康状态的因素很多, 这些因素间又相互影响、相互关联.因此, 应用这些多指标综合评价方法可为云环境亚健康状态的因素及指标选取、综合评价提供很好的借鉴和参考.

3.1.2 计算机网络和计算机系统性能评价及分析

信息系统整体性评价研究为云环境亚健康状态多因素的综合评价提供了借鉴, 但对具体某个因素如何评价并没有涉及, 本节以IT系统最常见的计算机网络和计算机系统的性能评价及分析为例, 对当前与云环境亚健康性能因素相关的评价理论及方法进行总结与分析.

计算机网络和计算机系统的性能分析研究已有多年历史, Balsamo等[15]总结并分析了一些经典的性能分析模型与方法, 包括基于基准程序的方法、基于排队网络模型的方法、基于反馈控制的方法、以及基于统计学习的方法.基准程序和排队网络模型是两类经典的系统性能评价与分析方法, 应用最早, 相应的理论模型也最为成熟.反馈控制和统计学习是近十年来才开始逐渐应用的系统性能评价与分析方法.随着当前计算机网络和计算机系统规模的不断扩大, 基于反馈控制和统计学习的性能评价与分析的应用也越来越广泛.Liu等[16]提出的自适应反馈控制技术, 可以实现共享服务器性能的动态调节.基于统计学习的性能分析方法可根据系统性能的历史记录, 预测系统在特定条件下的行为表现.例如Xing等[17]使用统计方法对部署于云数据中心内的企业关键负载进行了深入刻画.Shen等[18]基于变量聚类和主成份分析, 为科学应用开发了一种统计方法来抽取主要的性能特征, 以产生易于理解的结果.Ozisikyilmaz等[19]使用线性回归和人工神经网络2种方法进行系统性能预测.Ganapathi等[20]采用核典型相关分析方法将数据库查询语言特征映射到系统性能特征, 从而实现对数据库查询语言执行性能的预测, 进而为数据库查询语言的调度执行提供参考.

上述方法在解决计算机网络和计算机系统的性能评价与分析方面进行了广泛应用, 但随着云计算系统架构的不断复杂, 在进行云计算系统性能评价与分析时面临越来越多的效率及准确性等问题, 未来面向云环境亚健康的性能评价与分析需要针对云环境不断扩大的规模及系统架构复杂性等需求进行优化设计, 以满足不断提升的效率和准确性等要求.因此, 在进行单个影响因素(如:性能)的评价及分析时, 可设计一个或多个基准程序来模拟云环境中典型的应用场景, 然后通过不同场景下云环境的表现来获得该因素对云环境亚健康状态的影响方式及程度, 也还可以使用反馈控制理论或基于统计学习的方法来获得.

3.1.3 计算机网络和计算机系统故障诊断及分析

计算机网络和计算机系统的故障诊断通常可分为3个阶段:故障发现、故障定位和故障诊断.目前常见的状态信息收集技术主要有异步告警和主动轮询.当系统发生故障时, 异步告警会让发生故障的设备主动向故障管理系统报告.主动轮询时, 故障管理系统会定期查询各种网络设备和服务器的状态信息[5].事件关联技术是目前研究最热的故障定位工具[21-22].基于模型、信号处理、知识的方法是当前应用最为广泛的3种故障诊断方法.基于模型的方法最早出现, 但需要建立一个精确的数学模型;基于信号处理的方法使用信号模型来处理问题, 精确度不高;基于知识的方法比较适合日益复杂化的系统故障诊断, 具有较高的智能性.

计算机网络和计算机系统的故障诊断及分析对云环境健康状况的研究, 尤其是云环境亚健康状态的诊断及分析具有重要的指导意义.通过对这些方法的总结, 可以为云环境亚健康状态的诊断及分析提供重要参考.现有的计算机网络和计算机系统的故障诊断及分析方法部分可以直接用于云环境亚健康状态的诊断及分析.但由于云计算环境与传统的计算机网络和计算机系统有较大区别, 尤其是一些新技术(如:虚拟化)的采用, 给云环境亚健康状态的诊断及分析带来了比较大的挑战.云环境亚健康状态的诊断及分析还需要进行大量的针对性开发.其中, 基于知识的故障诊断方法值得尤为关注, 因为其对复杂系统具有良好的智能故障诊断能力, 可以用于规模不断扩大、结构不断复杂的云环境亚健康状态的诊断及分析.

3.2 云环境亚健康相关研究现状

亚健康是当前云环境面临的现实难题, 根据前面提出的云环境亚健康研究的知识结构, 虽然当前直接相关的研究基础很少, 但有一些工作间接相关, 主要集中在云监控、云架构、云平台性能评价及分析、云平台能耗控制、云安全等方面.

3.2.1 云监控相关

云监控是获得云环境健康状况相关数据的重要手段, 也是进行云环境健康状况分析、云环境亚健康状态诊断的前提和基础.在产业界, 当前各大著名的云计算平台都有自己的监控系统, 比较有代表性的是Google App Engine的监控工具App Engine System Status Dashboard[23], 可以用来监控App Engine各个应用的运行情况.另外, Hyperic公司开发的第三方监控工具CloudStatus[24]可以用来同时监控Amazon和Google App Engine的服务.在学术界, Ward等[25-26]对云监控方面的技术、工程挑战及实践进行了深入研究, 也对云监控工具进行了综述.在监控数据传输方面, 纯粹的推或拉模型已不能适应云计算环境复杂监控对象的要求, Huang等[27]提出了一种结合推拉的混合资源监控P & P模型用来进行云环境的监控.Li等[28]提出了一种面向方面的云监控数据的分发机制和基于分布式框架的监控数据处理.

虽然当前云监控研究已取得了一些进展, 但不论是在监控能力, 还是在监控效率上都还有很大提升空间.并且, 当前云监控主要是为收集云平台性能数据和检查是否出现故障而开展, 没有专门针对云平台的健康状况进行相应的数据收集和处理.相较于性能数据, 云平台的健康状况需要处理的数据维度及规模要大很多, 还包括能耗、安全、QoS、可靠性等很多方面的数据.因此, 面向云环境亚健康状态的智能云监控技术还需进行深入研究, 利用一些新的数据处理和计算模型来实现面向云环境亚健康的数据收集、传输及处理等功能.

3.2.2 云架构相关

云计算固有的超大规模、虚拟化、高可靠性、高可扩展性、按需服务及弹性服务等特点使得云计算架构必须能够支持动态可伸缩、高度可扩展的灵活机制.在云环境健康状况评估中也必须考虑云环境的架构因素, 一个功能、性能等各方面均正常, 但是在架构上缺乏足够可扩展性, 无法满足用户规模、资源供应高度动态变化的云环境也不能称作是一种健康的云环境.

目前在云计算架构方面的研究还不多, Brummett等[29]对当前3个主要的开源云计算架构Eucalyptus、OpenStack和OpenNebula的性能和易用性进行了评估, 并将结果和商业云计算架构Amazon EC2进行了比较.Cao等[30]根据不同商用云平台的架构方案综合构造了一种云计算体系架构.在架构的可伸缩性方面, 针对当前研究更多地停留在较低层次的技术来实现云架构的动态可扩展, 缺乏在更上层对跨不同云服务商不同服务层次的大型云应用开发的支持, Michael等[31]描绘了一种新的云架构蓝图, 该蓝图可支持不同云服务商不同服务层次的服务集成, 并提供了一种全新的方法帮助开发人员在虚拟机和资源池中集成、配置及部署基于虚拟服务的云应用.

上述方法对评估云环境的架构因素具有一定的参考意义, 通过这些方法可以对云环境的架构进行评价, 进而作为云环境健康状况评估的参考.虽然当前云平台架构设计、开发及实现方面的研究已取得一定进展, 但关于云平台架构评价方面的研究还很少, 还没有形成统一的标准和模型.因此, 在对云环境亚健康架构影响因素进行分析时, 还需要对云平台架构的评价进行深入研究, 确定云平台架构的评价标准及模型, 进而对云平台架构进行评价与打分, 并通过分析云平台架构对云环境健康状况的影响方式及影响程度, 最终把架构因素作为云环境亚健康状态形式化模型的一部分.

3.2.3 云平台性能评价及分析相关

作为云环境亚健康状态定义的内涵之一, 云平台的性能亚健康也需要引起重点关注.目前, 关于云平台性能分析与优化方面的研究还处于起步阶段, 现有的性能分析与优化方法对云平台规模大、复杂等特点的支持还不够, 还没有形成较为完整的云平台性能分析与评价的理论体系.因此, 潜在的性能问题很有可能成为影响云环境亚健康状态的重要因素, 在对云环境性能亚健康进行诊断分析时需要借鉴当前云平台性能评价及分析领域的相关方法.

Yahoo提出了专门的云计算平台基准程序框架YCSB(Yahoo! Cloud Serving Benchmark)[32], 用来进行云平台的性能测试.Chhetri等[33]提出了一种通用的云计算基准程序Smart CloudBench, 并通过简单的案例强调了该benchmark的重要性.Kai等[34]提出了一种云计算性能模型, 用来评估IaaS、PaaS、SaaS或者混合云, 并通过5个真实的云benchmark程序对提出的性能模型进行了验证.为了解决云计算量化性能分析这一难题, Chen等[35]提出了一种基于概率的排队网络模型来进行云基础架构的性能分析, 该模型主要考虑任务的预期结束时间和被拒绝的概率.

上述方法在一定程度上促进了云平台性能分析方面的研究, 但往往只关注部署在云平台上的某类应用或系统的性能情况, 没有从整体上对云环境的性能状况作一个全面的综合评价.另外, 现有的云平台性能评价及分析方法没有研究性能与云环境健康状况之间的关系, 即云平台性能情况对云环境健康状况的影响方式.同样, 在云环境亚健康状态下, 云平台的性能会产生什么样的退化等也没有相关的研究.因此, 在进行云环境性能亚健康建模、诊断及分析时需要重点考虑这2个问题.

3.2.4 云平台能耗控制相关

能耗控制是否合理也是评价云环境是否处于亚健康状态的一个重要因素.处于健康状态的云环境不仅在功能、性能等方面处于正常水平, 在能耗管理方面也应该比较好的表现.因此, 在云环境亚健康的研究中, 如何对云环境的能耗进行合理评价、优化控制以及如何评价能耗对云环境健康状况的影响方式及程度也是需要重点关注的问题.

当前云计算系统能耗控制、优化管理技术主要有3类:开关机、电压动态调整和服务器整合技术.开关机方式主要通过让更多物理机空闲即关机来最大程度地降低功耗, 实现手段主要有两大类:1) 资源分配, 根据负载动态为应用开启或关闭服务器[36];2) 负载分发, 尽可能地让负载集中, 从而使某些物理机负载尽快排空, 然后关机来降低功耗[37].电压动态调整是指在负载低时降低CPU等芯片的频率或电压来降低功耗, 其关键是要有低功耗、高能效且支持动态调整的硬件设备或芯片的支持, 如:基于电压动态调整技术设计的启发式调度算法[38], 可用来降低并行任务在集群环境中执行时产生的能耗.服务器整合是指采取有效的虚拟机整合策略把应用负载的波峰、波谷到来时机不同的虚拟机进行整合, 更有效地利用物理机资源, 减少使用物理机的数量, 达到降低功耗的目的, 如Padala等[39]对基于虚拟机的服务器整合性能进行了定性评价, Song等[40]对服务器整合进行了定量分析.

尽管云计算被认为是一种绿色计算, 但其本身并没有提供成熟的解决方案来评价和降低系统能耗[41].上述能耗控制方法为云环境的能耗管理与优化提供了参考, 也为评估云环境的能耗水平打下了基础.通过对这些方法的使用和分析, 可以较为容易地获得云环境的能耗状况.具体来说, 进行云环境亚健康能耗影响因素的研究, 首先需要找到一种能耗的度量模型和测量方法, 通过对云环境的能耗进行测量和分析, 得出当前云环境的能耗状况, 然后通过分析建立关于能耗影响因素与云环境亚健康之间的模型, 并结合其他影响因素的共同作用来判断当前云环境是否处于亚健康状态.

3.2.5 云安全研究相关

云环境中各类应用没有固定不变的基础设施, 没有固定不变的安全边界, 并且由于利益冲突, 云环境通常无法统一部署安全防护措施.因此, 云环境中潜在的安全隐患比较隐蔽, 云环境也比较容易因为一些潜在的安全问题而进入亚健康状态.总结当前云安全相关的研究现状对云环境亚健康状态安全影响因素的研究也有比较大的帮助.

随着云计算的快速发展, 各类云安全产品与方案也不断涌现.例如, Sun(现为Oracle)公司发布的一套开源云计算安全工具(包括OpenSolaris VPC网关软件[42]、VMIs、云安全盒等)可为Amazon的EC2, S3以及虚拟私有云平台提供安全保护.Medhioub等[43]对云安全的研究现状, 云架构安全保护的未来研究方向和技术趋势进行了综述.在云计算安全技术的研究方面, 当前主要集中在可信访问控制、数据隐私保护、虚拟安全、可信云计算等方面.可信访问控制使用最多的是基于密码学的方法;数据隐私保护方面, Soni等[44]提出了一种使用新的身份管理机制的云计算隐私保护模型;虚拟安全方面, Muhammad等[45]对虚拟化技术带来的安全和隐私方面的问题进行了介绍, 并对解决这些问题的技术进行了综述;Raj等[46]提出了通过缓存层次可感知的核心分配, 以及给予缓存划分的页染色的2种资源管理方法来实现性能与安全隔离;可信云计算方面, Sen等[47]通过一种分布式的方式实现了一种可信的云计算平台, 并通过该平台来阻止不同基础架构级别的攻击.

上述云安全框架、安全保护技术为云环境亚健康状态安全影响因素的研究提供了参考, 可以使用或者改进现有方法来获得当前云环境的安全状况, 进而判断当前的安全状况是否足以导致云环境处于亚健康状态, 或者分析当前的云安全状况对云环境亚健康状态的贡献程度.同样, 当前的云安全框架或保护技术还没有考虑云安全跟云环境健康状况之间的关系, 因此, 跟其他影响因素一样, 在对云环境亚健康状态进行建模和诊断时, 需要分析云安全影响因素对云环境亚健康状态的影响方式及程度, 并建立关系模型, 作为云环境亚健康状态形式化模型的一部分.

4 结语

随着云计算技术的飞速发展, 需求驱动云计算中心的规模越来越大, 功能越来越多, 结构越来越复杂, 也给云环境健康状况评估带来了巨大挑战.本文一方面对目前云环境亚健康相关的研究工作进行了总结, 另一方面, 通过梳理云环境亚健康研究的知识结构, 为未来云环境亚健康研究工作的更好开展打下基础.相信随着云环境亚健康概念的逐渐明晰, 在不久的将来, 云环境亚健康状态诊断及分析平台与技术会蓬勃发展, 得到工业界和学术界的一致认可.

参考文献
[1] 冯登国, 张敏, 张妍, 等. 云计算安全研究[J]. 软件学报, 2011, 22(1): 71–83.
QIN Deng-guo, ZHANG Min, ZHANG Yan, et al. Cloud computing security research[J]. Journal of Software, 2011, 22(1): 71–83.
[2] 赵瑞芹, 宋振峰. 亚健康问题的研究进展[J]. 国外医学:社会学分册, 2002, 21(41): 10–13.
ZHAO Rui-qin, SONG Zhen-feng. The research progress of sub health problems[J]. Foreign Medical Sciences: Section of Social Medicine, 2002, 21(41): 10–13.
[3] 倪红梅, 方盛泉, 何裕民, 等. 试析亚健康状态与心身病证的相关性[J]. 上海中医药大学学报, 2008, 22(1): 13–15.
NI Hong-mei, FANG Sheng-quan, HE Yu-min, et al. Correlation analysis of sub-health status and psychosomatic diseases[J]. Journal of Shanghai University of Traditional Chinese Medicine, 2008, 22(1): 13–15.
[4] 贾平. 关注网络的"亚健康"[J]. 兵团教育学院学报, 2004, 14(2): 78–79.
JIA Ping. Concern on the sub-health state of networks[J]. Journal of Bingtuan Education Institute, 2004, 14(2): 78–79.
[5] 黄大荣, 汪鹏. 网络系统"亚健康"状态的性能退化评估模型[J]. 南京航空航天大学学报, 2011, 43(7): 60–63.
HUANG Da-rong, WANG Peng. Performance degradation assessment model of "sub health" state of network system[J]. Journal of Nanjing University of Aeronautics and Astronautics, 2011, 43(7): 60–63.
[6] 王光辉, 王琦, 薛俊宏, 等. 亚健康干预的现状与进展[J]. 世界中西医结合杂志, 2010, 5(10): 908–913.
WANG Guang-hui, WANG Qi, XUE Jun-hong, et al. Current situation and development of sub health intervention[J]. World Journal of Integrated Traditional and Western Medicine, 2010, 5(10): 908–913. DOI:10.3969/j.issn.1673-6613.2010.10.033
[7] 胡镜清, 江丽杰, 彭锦, 等. 现代医学模式下亚健康概念特征属性的思考及意义[J]. 中国中医基础医学杂志, 2011, 17(6): 683–690.
HU Jing-qing, JIANG Li-jie, PENG Jin, et al. Thinking and meaning of the characteristics of sub-health concept in modern medical mode[J]. China Journal of Basic Medicine in Traditional Chinese Medicine, 2011, 17(6): 683–690.
[8] 黄鹂, 原嘉民, 欧爱华, 等. 基于决策树的亚健康状态影响因素模型[J]. 使用医学杂志, 2011, 27(1): 121–124.
HUANG Li, YUAN Jia-min, OU Ai-hua, et al. Influence factors model of sub health state based on decision tree[J]. The Journal of Practical Medicine, 2011, 27(1): 121–124.
[9] 王利敏, 曲彬彬, 赵歆, 等. 基于结构方程模型的亚健康状态中医症候量化分析研究[J]. 中华中医药杂志, 2011, 26(5): 1033–1036.
WANG Li-min, QU Bin-bin, ZHAO Xin, et al. Quantitative analysis and research of TCM symptoms of sub-health status based on the structural equation model[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2011, 26(5): 1033–1036.
[10] 罗晓芳. 基于模糊集与神经网络的亚健康诊断[J]. 杭州师范学院学报, 2004, 3(2): 105–109.
LUO Xiao-fang. Diagnosis of the quasi-health state based on the fuzzy sets and neural networks[J]. Journal of Hangzhou Teachers College, 2004, 3(2): 105–109.
[11] 林森. 复杂系统评价方法研究--以科研系统评价为例[D]. 山东: 青岛大学, 2007.
LIN Sen. Research on the evaluation method of complex systems: taking the evaluation of scientific research system as an example[D]. Shandong: Qingdao University, 2007.
[12] 郭东强, 王志江. 管理信息系统综合评价的数学模型[J]. 运筹与管理, 2000, 9(3): 74-80.
GUO Dong-qiang, WANG Zhi-jiang. The mathematical model of thecomprehensive evalua tion on MIS. Operations Research and Management Science[J]. 2000, 9(3): 74-80.
[13] 闵文杰, 陈建明, 张仲义. 信息系统评价指标体系及方法的研究[J]. 铁道学报, 2000, 22(5): 37–41.
MIN Wen-jie, CHEN Jian-ming, ZHANG Zhong-yi. Research on index system and method of information system evaluation[J]. Railway Transaction, 2000, 22(5): 37–41.
[14] 汤志伟, 符萍. 基于小波神经网络的信息系统综合评价模型[J]. 电子科技大学学报, 2005, 34(5): 672–675.
TANG Zhi-wei, FU Ping. Integrated evaluation model of information system based on wavelet neural network[J]. Journal of University of Electronic Science and Technology of China, 2005, 34(5): 672–675.
[15] BALSAMO S, MARCO A D, INVERARDI P, et al. Model-based performance prediction in software development: a survey[J]. IEEE Transactions on Software Engineering, 2004, 30(5): 295–310. DOI:10.1109/TSE.2004.9
[16] LIU X, ZHU X, SINGHAL S, et al. Adaptive entitlement control of resource containers on shared Servers[C]//Proceedings of 9th IFIP/IEEE International Symposium on Integrated Network Management. Nice: IEEE, 2005: 163-176.
[17] XING F, YOU H, LU C D. Statistical performanceanalysis for scientific applications[C]//ACM Conference on Extreme Science and Engineering Discovery Environment. Atlanta: ACM, 2014: 1-8.
[18] SHEN S, VAN BEEK V, IOSUP A. Statistical characterization of business-critical workloads hosted in cloud datacenters[C]//IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing. Shenzhen: IEEE, 2015: 465-474.
[19] OZISIKYILMAZ B, MEMIK G, CHOUDHARY A. Machine learning models to predict performance of computer system design alternatives[C]//Proceedings of the 37th International Conference on Parallel Processing, Portland: IEEE, 2008: 495-502.
[20] GANAPATHI A, KUNO H, DAYAL U, et al. Predicting multiple metrics for queries: better decisions enabled by machine learning[C]//Proceedings of the 2009 IEEE International Conference on Data Engineering. Shanghai: IEEE, 2009: 592-603.
[21] KWONG R H, YONGE-MALLO D L. Fault diagnosis in discrete-event systems with incomplete models: learnability and diagnosability[J]. IEEE Transactions on Cybernetics, 2015, 45(7): 1236–1249. DOI:10.1109/TCYB.2014.2347801
[22] 欧阳丹彤, 李江娜, 耿雪娜. 离散事件系统故障的极小观测序列[J]. 湖南大学学报:自然科学版, 2016, 43(4): 147–152.
OU YANG Dan-tong, LI Jiang-na, GENG Xue-na. Minimal observation sequence of discrete event system fault[J]. Journal of Hunan University: Natural Science Edition, 2016, 43(4): 147–152.
[23] Google App Engine. Google Inc.[EB/OL].[2017-01-10]. http://code.google.com/appengine/.
[24] Cloudstatus. Hyperic Inc.[EB/OL].[2017-01-10]. http://www.cloudstatus.com/.
[25] WARD J S, BARKER A. Observing the clouds: a survey and taxonomy of cloud monitoring[J]. Journal of Cloud Computing, 2014, 3(1): 1–30. DOI:10.1186/2192-113X-3-1
[26] ALHAMAZANI K, RANJAN R, MITRA K, et al. An overview of the commercial cloud monitoring tools: research dimensions, design issues, and state-of-the-art[J]. Computing, 2013, 97(4): 357–377.
[27] HUANG H, WANG L. P & P: a combined push-pull model for resource monitoring in cloud computing environment[C]//IEEE 3rd International Conference on Cloud Computing. Miami: IEEE, 2010: 260-267.
[28] LI D Z, LIU J H, DONG X, et al. Application-oriented cloud monitoring data distribution mechanism[J]. Journal of Shanghai Jiaotong University, 2015, 20(2): 149–155. DOI:10.1007/s12204-015-1603-1
[29] BRUMMETT T, SHEINIDASHTEGOL P, SARKAR D, et al. Performance metrics of local cloud computing architectures[C]//IEEE International Conference on Cyber Security and Cloud Computing. New York: IEEE, 2015: 25-30.
[30] CAO B Q, LI B, XIA Q M. A service-oriented qos-assured and multi-agent cloud computing architecture[J]. Cloud Computing, 2009: 644–649.
[31] PAPAZOGLOU M P, VAN D H W. Blueprinting the cloud[J]. IEEE Internet Computing, 2011, 15(6): 74–79. DOI:10.1109/MIC.2011.147
[32] COOPER B F, SILBERSTEIN A, TAM E, et al. Benchmarking cloud serving systems with YCSB[C]//Proceedings of ACM Symposium on Cloud Computing. Indianapolis: ACM, 2010: 143-154.
[33] CHHETRI M B, CHICHIN S, VO Q B, et al. Smart CloudBench: a framework for evaluating cloud infrastructure performance[J]. Information Systems Frontiers, 2016, 18(3): 413–428. DOI:10.1007/s10796-015-9557-2
[34] HWANG K, BAI X, SHI Y, et al. Cloud performance modeling with benchmark evaluation of elastic scaling strategies[J]. IEEE Transactions on Parallel and Distributed Systems, 2016, 27(1): 130–143. DOI:10.1109/TPDS.2015.2398438
[35] CHEN P, XIA Y, PANG S, et al. A probabilistic model for performance analysis of cloud infrastructures[J]. Concurrency and Computation Practice and Experience, 2015, 27(17): 4784–4796. DOI:10.1002/cpe.v27.17
[36] HEALTH T, DINIZ B, CARRERA E V, et al. Energy conservation in heterogeneous server clusters[C]//Proceedings of the ACM SIGPLAN Symp osium on Principles and Practice of Parallel Programming. Chicago: ACM, 2005: 186-195.
[37] CHEN G, HE W B, LIU J, et al. Energy-Aware server provisioning and load dispatching for connection-intensive Internet services[C]//Proceedings of the NSDI. San Francisco: ACM, 2008: 337-350.
[38] 基于电压动态调整技术设计的启发式调度算法. [EB/OL]. [2010-3-26]. http://www.searchdatacenter.com.cn/showcontent_33068.htm.
[39] GHOR HE, CHETTO M. EDeg-fs: a heuristic for scheduling and dynamic power management in embedded energy harvesting systems with DVFS facilities[C] //2015 International Conference on Pervasive and Embedded Computing and Communication Systems (PECCS), Dubai: WASET, 2015: 1-6.
[40] PADALA P, ZHU X Y, WANG Z K, et al. Performance evaluation of virtualization technologies for server consolidation[J]. Virtualization with VMware Esx Server, 2007(9): 161–196.
[41] SONG Y, ZHANG Y W, SUN Y Z, et al. Utilityanalysis for Internet-oriented server consolidation in VM-based data centers[C]//Proceedings of the CLUSTER, New Orleans: IEEE, 2009: 1-10.
[42] 宋杰, 李甜甜, 阎振兴, 等. 一种云计算环境下的能效模型和度量方法[J]. 软件学报, 2012, 23(2): 200–214.
SONG Jie, ZHANG Tian-tian, YAN Zhen-xing, et al. A model of energy efficiency and measurement method in cloud computing environment[J]. Journal of Software, 2012, 23(2): 200–214.
[43] OpenSolaris VPC Gateway. Oracle Inc.[EB/OL]. (2009-12-07)[2017-01-10]. http://kenai.com/projects/osolvpc/pages/Home.
[44] MEDHIOUB M, HAMDI M, KIM T H. Requirements capture and comparative analysis of cloud security techniques[J]. International Journal of Grid and Distributed Computing, 2015, 8(2): 285–308. DOI:10.14257/ijgdc
[45] SONI D, PATEL H. Privacy preservation using novel identity management scheme in cloud computing[C]//Fifth International Conference on Communication Systems and Network Technologies. Gwalior: IEEE 2015: 714-719.
[46] MUHAMMAD A, SHAKEEL H. Virtualization security: analysis and open challenges[J]. International Journal of Law and Information Technology, 2015, 8(2): 237–246.
[47] RAJ H, NATHUJI R, SINGH A, et al. Resource management for isolation enhanced cloud services[C]//Proceedings of the 2009 ACM Workshop on Cloud Computing Security. Chicago: ACM, 2009: 77-84.
[48] SEN P, SAHA P, KHATUA S. A distributed approach towards trusted cloud computing platform[C]//Applications and Innovations in Mobile Computing. Kolkata: IEEE, 2015: 146-151.