一种并行/容错系统的任务调度算法

一种并行/容错系统的任务调度算法

一、一种并行/容错系统的任务调度算法(论文文献综述)

杜爽[1](2021)在《多路实时监控视频数据处理与分析系统的设计与实现》文中认为如今监控设备在智能安防、平安城市、刑事侦查领域得到广泛应用,数量众多的监控点位不断地工作,监控视频的质量也在不断地提升,随之带来监控视频数据呈现出指数倍增长趋势,并且具有非结构化、无边界性、时空连续性等特点。传统的视频监控系统在视频流传输、图像处理和离线处理等方面有着大量的研究,但在分布式处理与实时性分析方面的研究较少,设计并实现一个多路实时监控视频数据处理与分析系统的技术难题亟待解决。本文基于传统的监控视频数据处理与分析技术和主流的流计算框架,设计并实现了一个高性能、低延迟、高扩展性的视频数据处理与分析系统,主要创新和工作如下:1)本文设计并实现了一个多路实时监控视频数据处理与分析系统,采用自主设计的轻量级流计算架构弥补了目前主流的流计算框架结构臃肿,处理非结构化的视频数据效率低下,调度算法未考虑到集群资源的变化等不足。主节点负责视频处理任务调度和系统资源管理,从节点负责执行具体的视频处理与分析任务。采用主从复制策略和心跳机制保证了容错性;采用自主设计的DRSA调度算法保证了系统资源利用率;采用了基于预测编码图像帧间隔的视频选帧策略选取关键帧。2)在视频数据处理方面,采用基于CPU软解码技术和基于GPU硬解码技术结合的异构协同工作机制处理海量的实时监控视频数据,充分利用CPU和GPU的计算资源并行处理实时数据,提高了系统吞吐率。3)在视频数据分析方面,基于监控视频数据的时空连续性,设计人脸跟踪去重算法减少了大量冗余重复的人脸信息,节约了计算资源,并且保证了复杂条件下非合作目标人员统计的真实有效性。4)本文对系统进行了详细的功能测试和性能测试,并结合应用场景对测试结果进行了详细分析。测试结果显示在多路实时监控视频数据场景下,本系统能够满足流式数据实时地处理与分析的需求。

孟飒[2](2021)在《大规模云计算系统的可靠性建模及优化研究》文中提出近年来,大规模云计算系统不断成为大数据、物联网、人工智能等应用的重要支撑平台,随着其规模和复杂性的急剧增加,各种硬件和软件故障质变为常态现象,多类型的故障需要及时发现和修复。同时,复杂性不断增加的云计算系统架构对可靠性带来的影响不断凸显(如评估困难、运维低效等),并受到学术界和产业界的广泛关注。如何量化复杂的云计算系统可靠性特征并加以保障和有效提升已经成为了制约云计算产业持续发展的关键问题。在现有的云计算系统可靠性研究中,可靠性往往被作为单一指标进行研究,而忽略了规模、性能、服务质量、能耗等指标和可靠性之间的关联影响,这不仅不利于准确把握可靠性降低对大规模云计算系统带来的严重影响,更不利于在全面兼顾所有指标的基础上进行合理的可靠性优化工作。同时,大规模云计算系统覆盖的故障类型更加广泛,这使得可靠性和其他指标(如能耗)的关联分析更加困难,需要更加准确有效的建模分析方法和更为灵活的优化技术途径来实现关联优化的可靠性保障功能。在实际的应用中,大规模云计算系统需要提供全方面多层次的服务,大量用户的接入、多样化的应用程序、并行的计算能力需求、常态多类型故障都对云计算系统的系统可靠性、服务可靠性、作业可靠性提出了严峻的挑战。而不同于传统的IT系统,大规模云计算系统具有逻辑虚拟化、资源动态整合、应用灵活迁移等不同的技术特点,这使得云计算系统具有更加复杂的故障关联现象和更加灵活的容错技术。在这种情况下,传统的可靠性评估模型或分析技术已经难以直接应用在大规模云计算系统下,相应地,在对大规模云计算系统进行可靠性优化的过程中,必须充分地考虑这些不同的系统结构、技术特征、以及功能指标对可靠性的评估优化带来的重要影响。本文以大规模云计算系统为研究对象,以大规模云计算系统的可靠性建模与优化问题为研究内容,以基于成本约束的多指标关联建模与优化、面向云服务的可靠性建模与优化和基于容错技术的大数据作业可靠性建模为研究重点,分别从系统、服务、应用三个相互关联的角度研究了大规模云计算系统的可靠性建模及优化问题。相关的研究工作覆盖了大规模云计算系统的系统结构、故障类型、容错技术和应用特点等方面,为全面评估大规模云计算系统的可靠性关联特征和持续优化工作提供了新的视角。本文的主要研究工作由以下几部分构成:(1)针对大规模云计算系统的可靠性-能耗的关联建模分析,提出了一套基于成本约束的可靠性-能耗关联优化的策略。相关工作综合运用了故障树建模和优化备用策略的相关技术,考虑了物理节点与虚拟机的共因故障,实现了可靠性与能耗两方面的优化。首先,基于可靠性关联模型提出了成本约束的设计方法,提出了成本约束的可靠性保障框架RAF-CC,集成了基于热备用、冷备用虚拟机的故障树分析方法;随后,提出了可靠性-能耗关联优化的资源调度算法JORE-RSA,通过虚拟机迁移动态保障整个系统的可靠性;最后,在系统实时运行中,利用成本约束寻找优化的云基础设施物理节点数目,提出了最小化物理节点占用算法MPN,进一步优化能效成本。(2)针对大规模云计算系统新兴的云服务模式,在面向多用户、多服务类型的情况下,将云服务过程合理地划分为请求处理阶段和请求执行阶段。在请求处理阶段,利用排队论分析了请求超时和请求溢出故障,而在请求执行阶段,利用kout-of-n系统的建模方法全面分析了热备份下的系统服务过程。基于可靠性的分析,进一步实现了请求处理阶段的动态优化调度技术和请求执行阶段的故障自修复技术。动态优化调度技术基于请求到达率的强度变化,自主触发动态调度机制,而被触发的调度行为不仅维持服务可靠性在指定的水平之上,还避免不必要的资源浪费;故障自修复技术基于服务虚拟机的运行状态监控,自主进行异常检测,在发现可能出现的故障时触发快速地修复行为,并根据修复后的可靠性变化情况进行自我学习提升,不断提高修复行为对可靠性的保障效果,最终使得大规模云计算系统可以在复杂且动态多变的服务环境下,有效维持其服务可靠性。(3)在大数据处理的重要应用场景下,系统地进行了面向不同大数据作业类型和不同容错技术的可靠性建模研究。首先,针对具有阶段性任务的大数据作业,提出了一种采用检查点容错机制的可执行性模型。该模型以大数据作业为单位,细致地分析了作业执行过程中的随机硬件故障、软件故障和恢复行动;采用了马尔可夫随机过程、拉普拉斯-斯蒂尔切斯变换等数学方法实现了可执行性的量化评估。其次,针对具有并行计算需求的大数据作业,采用了冗余执行的容错技术,并针对实时冗余并行计算的复杂拓扑结构难以分析的难题,提出了一种将整体执行树划分为多个最小作业生成树并进行分析的通用方法,该方法在多个最小作业生成树其元素相互覆盖的复杂情况下有效抽取出影响这些最小作业生成树运行的关键元素集,并最终利用结合贝叶斯理论和容斥原理获得整个大数据作业的可靠性评估。

张玉琢[3](2020)在《列控安全计算机分区软件的形式化建模与验证方法研究》文中进行了进一步梳理随着通信技术、控制技术和计算机技术在铁路领域的飞速进步和应用,列车运行控制系统(简称“列控系统”)不断向着综合化、模块化的方向发展。安全计算机作为列控系统的核心部件,承载其大部分的安全功能,是一个典型的安全苛求系统。现代安全计算机正由传统的电子机械密集型向着软件密集型逐步过渡,软件所占比例逐步上升,规模也越来越大,由此产生了模块化的概念。为了实现安全计算机的高容错能力,采用分区的方式实现不同分组的软件在时间和空间上互不影响,独立运行。由于分区软件具有并发性和共享性的特征,对系统安全性和可靠性带来了挑战。而形式化方法以形式或逻辑系统为基础,能够支持对计算机系统进行严格的建模和验证,在系统设计开发过程能够分析、处理、证明系统性质,提高和保障其可信性。论文阐述了列控安全计算机综合模块化的发展趋势、分区软件结构特性及管理机制,对列控安全计算机分区软件形式化研究作了梳理,根据安全计算机的建模需求,归纳总结了分区管理需要解决的安全性、实时性和可调度性三方面的研究重点。为了对这些指标进行定性和定量分析,本文从以下几个方面开展了研究:(1)论文针对并行程序安全性的问题,设计了基于事务内存的并发安全控制机制,利用并发分离逻辑设计了推理抽象机,并制订了推理规则。之后采用不变式证明方法对安全机制的可靠性进行推理验证,证明了该机制能保障并行程序的正确性。随后搭建了2乘2取2安全计算机平台,对并行应用操作共享内存的过程进行了安全性测试,验证了该安全控制机制可以保证并发安全地访问共享资源。(2)论文针对实时性的问题,对传统的时间Petri网进行拓展,考虑到非马尔科夫时间参数,提出了基于随机时间Petri网的建模方法,突破了列控系统Petri网模型要求时间参数为指数分布的限制。通过随机时间Petri网的定义和相关参数的引入,能够对非马尔科夫时间参数中的确定性分布、Erlang分布、超指数分布进行区分处理。为了利用随机时间Petri网模型进行实时性验证,提出了基于随机状态类的瞬态分析算法,通过随机状态树的构建和马尔科夫再生点的计算,对含有一般性分布的时间参数的模型进行瞬态分析。之后搭建了分区通信的随机时间Petri网模型,利用所提出的算法进行了实时性分析验证,对过程数据、消息数据和监督数据分别采用不同调度算法的时延进行了分析。随后利用2乘2取2安全计算机平台,结合开源实时以太网技术POWERLINK,对分区通信实时性能进行测试。(3)论文针对可调度性的问题,同样对传统的时间Petri网进行了拓展,提出了带有优先级时间Petri网的建模方法。针对时分多路复用全局调度和抢占固定优先级局部调度策略,克服了非确定性的执行时间和局部资源共享的难题,对包含有周期、偶发、抖动任务的双层调度机制进行了建模。并且提出了基于状态空间枚举的分析算法,识别从任务释放开始到任务结束的所有路径,提取最优完成时间和最差完成时间,检验任务截止时间是否满足,从而实现模型的可调度性分析。随后在2乘2取2安全计算机平台上,利用Vxworks的根任务调度实现了分区软件的调度,并对分区调度时刻信息进行了测试。最后在对全文工作和创新点总结的基础上,提出了下一步需要改进的地方和继续研究的问题。图37幅,表18个,参考文献116篇。

吴昊[4](2020)在《面向云平台IaaS层的能效问题研究》文中指出近年来,云平台已经成为学者和服务提供商部署计算应用的主流平台。得益于云平台中IaaS(Infrastructure as a Service)层的诸多优点,如动态可扩展、按需部署、可靠性高、性价比高等优点,吸引了众多来自学术界和工业界的用户。随着技术的发展与革新,例如宿主机资源均衡的改善、服务负载周期性变化等,IaaS层也涌现出一个新场景下亟待解决的重要问题:能效问题。如何提升IaaS层计算设施的能效,是用户和供应商共同面临的挑战之一。对于用户,能效问题关系到其执行计算应用的成本;对于云供应商,能效问题关系到数据中心的功耗以及稳定性。本文主要站在两个角度对IaaS层的能效问题展开研究。一方面是站在用户的角度上,针对需要执行大规模科学应用的用户,提出了一些算法与机制帮助用户提升使用云服务的效能以降低计算成本。另一方面,站在云供应商的角度,帮助其提升数据中心效能以降低数据中心的功耗并提高稳定性。在本研究中,作者在涉及到能效的成本、能耗和稳定性问题中取得了以下成果:1.为了降低云平台上中小规模科学工作流的执行成本,首先提出了一种基于可满足性模理论(Satisfiability Modulo Theories,SMT)的算法来调度云平台上的科学工作流,基于SMT的算法将调度问题构造为一阶逻辑表达式,并通过求解器对表达式进行求解,从而使分配给工作流的虚拟机数量最小化。然后开发了一种名为多重策略算法(Multiple Strategies Algorithm,MSA)的启发式算法,该算法用于确定一个虚拟机的执行模式使得虚拟机消耗的实例小时数量最少。最后,将提出的基于SMT的算法和MSA结合到一个名为SMT-MSA的框架中,并在实验中与其他优秀的算法进行比较,结果表明,在大多数情况下,该算法比其他三种方法降低了更多(高达5%)的成本。2.提出了 一个基于DAG拆分的任务调度框架(Cost Minimization Approach with DAG Splitting Sethod,COMSE),用于最大限度地降低受完成时间约束的大规模科学工作流的运行成本。首先全面分析了资源均衡的多vCPU虚拟机同时运行多个任务的资源利用情况。其次,考虑到工作流的并行性和拓扑结构之间的平衡,对基于DAG的工作流进行了简化,并在简化的DAG基础上,设计了一种DAG拆分方法对工作流进行预处理。然后,由于虚拟机是按小时收费的,因此设计了一个精确的算法,为给定的调度方案寻找最优的操作模式,使虚拟机消耗的实例小时数最小,这个算法被命名为TOID(Instance Hours Minimization by Dijkstra)。最后,基于 DAG 拆分法和 TOID,COMSE 在多vCPU虚拟机上调度一个受完成时间约束的大规模科学工作流,并将计算成本和通信成本进行最小化。通过大量严格的性能评估模拟实验,结果表明,COMSE方法在计算成本和通信成本方面显着优于现有算法,效果提升高达8%。3.为了降低大规模科学工作流在虚拟机上的容错成本,提出了一个新型的容错框架。首先,对如何提高在处理器上运行单个任务的容错性能进行了全面的理论分析。其次,考虑到工作流的并行性和拓扑结构之间的平衡,提出了选择性镜像任务容错机制(Fault Tolerance Algorithm using Selective Mirrored Tasks Method,FAUSIT)。FAUSIT 通过采用选择性镜像容错机制应对工作流的容错问题,并解决两个目标:最小化完成时间和计算成本。本研究用来自现实世界的工作流数据集进行模拟实验来评估FAUSIT,结果表明,FAUSIT方法在完成时间和计算成本方面综合地优于现有算法。4.为了降低数据中心的能耗和提高稳定性,提出了一个针对负载可预测的虚拟机调度算法(VM Consolidation algorithm for Predictable Loads,VCPL),以降低热迁移操作次数并提高物理机利用率。首先,提出了一个预测方法(Cyclic Usage Prediction,CUP)来预测虚拟机整个周期内的负载。然后,将周期性负载的虚拟机与其他的虚拟机分离,并通过VCPL将它们调度到物理机上,以确保每个物理机有一个稳定的负载,以达到降低热迁移操作并降低能耗的目的。最后通过使用微软提供的数据集进行了大量的模拟实验来评估VCPL算法,结果显示,66%的长期虚拟机具有周期性负载,并且是可预测的,而且容纳这些虚拟机的物理机上发生的热迁移操作可以比其他解决方案显着减少,提高了物理机资源利用率。

付仲明[5](2020)在《Apache Spark分布式并行计算框架优化技术研究》文中提出随着计算机技术的飞速发展,各行各业的数据以指数形式爆炸式增长。大数据时代已经来临,给互联网行业带了巨大的机遇与挑战。一方面,大数据资源蕴含着巨大的社会价值和商业价值,有效地管理这些数据、挖掘数据的深度价值,对国家治理、社会管理、企业决策和个人生活将带来深远的影响。另一方面,大数据有着数据量大、增长快、类型多、难辨识和价值大密度低等特征,传统的数据处理系统和技术已经很难满足大数据处理的需求。当前,并行处理是处理大量数据有效的方式。Map Reduce已经发展成为标准并行编程模型。作为Map Reduce框架流行的开源实现之一,Apache Spark具有高效性、可扩展性、容错性和易用性等优势,在学术界和工业界得到极大关注和广泛使用。尽管与Apache Hadoop相比,Spark基于内存计算提供更加强大的计算能力,但在实际使用中仍受到性能瓶颈的困扰。因此,如何改善Spark在面对大数据处理时的性能已经迫在眉睫。鉴于此,本文分别从容错机制、任务调度、数据通信和任务负载均衡等四个方面,对基于内存计算的Spark分布式计算框架的性能优化展开研究。本文的主要工作和创新点如下:(1)从容错机制方面,提出了一种异构环境中智能推测执行策略,来解决Spark中的Straggler问题。由于一些固有的缺陷,Spark中原始的推测执行机制不能有效解决该问题,尤其是在异构集群环境中,甚至引起性能的下降。本文中针对异构环境着重解决推测执行的三个关键问题:慢任务判断、备份节点选择和推测任务有效性保证。此外,为了尽量减少Straggler的误判,考虑数据本地性和数据偏斜因素的影响。在Spark集群中使用多个微基准(Sort和Word Count)、宏基准(Kmeans和LDA)和Hi Bench评估性能。实验结果表明所提出策略将Straggler判断准确度提高到了80%、召回率提高到了90%以上,以及平均查找时间减少了60秒以上。(2)从任务调度方面,提出了一种最优的本地性感知任务调度算法,以获得每阶段内任务的数据本地性全局最优。Spark任务调度器采用贪婪的调度策略没有考虑任务放置之间的相互影响,导致数据本地性局部最优。本文针对Map和Reduce阶段通信模式不同,利用二分图分别对Map和Reduce任务调度进行统一建模,然后制定最小化总通信代价的调度方案。最后将该任务调度问题转化为图匹配问题进行求解。在Spark集群中使用多个微基准(Word Count和Join)、宏基准(Page Rank和LDA)和Hi Bench评估性能。实验结果表明与其他算法相比,所提出任务调度算法可以减少35%的作业执行时间和38%的网络流量。(3)从数据通信方面,首次提出一种优化总通信距离的Executor分配方法,以减少任务数据通信延迟。Spark中提供两种Executor分配方法:Spread Out和No Spread Out,都有可能导致任务之间较远的数据传输距离。本文通过计算Executor距离矩阵,制定最小化总通信距离的Executor分配方案。然后针对Executor之间距离满足和不满足三角不等式两种情况,分别提出一种最优Executor分配近似算法和一种Executor集合扩充算法。在Spark集群中使用多个微基准(Sort和Join)和宏基准(Page Rank和LDA)评估性能。实验结果表明所提出方法可以减少24%~45%的任务数据访问时间。(4)从任务负载均衡方面,提出一种自适应中间数据分区方法,以使Shuffle阶段数据分区均匀。Spark中提供的哈希(Hash)和范围(Range)分区器很容易导致Reduce任务负载失衡,而这对于Spark Streaming流计算环境中作业的性能影响尤其明显。本文根据先前已处理微批预估下一批作业中间数据key分布。然后针对中间数据分配不均,在范围分区方案基础上提出了一系列优化措施,其中特别考虑了Shuffle操作前后的分区平衡。在Spark集群中使用多个微基准(Word Count和Sort)和宏基准(Page Rank和LDA)评估性能。实验结果表明所提出的分区方法可以平衡Reduce任务负载。本文工作有较大的理论和应用价值,特别是在大数据背景下,改善Spark分布式框架的性能,充分利用大数据平台的并行处理能力,对提高海量数据处理中的各种应用性能有很大的实际意义。

周伟琴[6](2020)在《基于图计算的并行海量数据处理平台》文中研究说明互联网的发展产生了大量数据,基于大数据的数据分析和数据挖掘技术逐渐发展。传统的数据数据量小,数据格式单一,一般采用单台服务器进行数据的挖掘或计算。而随着互联网数据量的和数据格式的迅速增多,传统数据处理系统并不能高效快速针对多种数据进行处理,缺乏一个较为通用的分布式数据处理平台。因此如何设计一个针对不同的数据格式进行海量数据处理并包含计算和存储功能的基础分布式数据处理平台成为一个值得研究的问题。本文设计了一个基于图计算的分布式海量数据计算平台,能够针对包含图数据在内的多种格式的数据进行分布式计算和存储,能完成用户自定义的多种数据和任务的抽象和处理,完成任务解析,任务执行,任务调度,数据存储等功能。主要工作如下:(1)设计并实现了分布式并行海量数据处理平台,GraphMaster节点负责系统任务调度和资源管理,GraphSlave执行节点和GraphWorker计算节点负责任务执行和资源统计。(2)设计了一种分布式系统的控制信息数据管理模型,通过用户自定义编写的动态链接库和图数据执行流拓扑结构文件定义整个图计算过程,将具体的业务代码和计算平台系统解耦,实现数据处理平台通用化。设计一致性哈希磁盘存储协议模型为系统提供一个高效通用的分布式存储引擎。设计主备节点一致性协议提高系统GraphMaster节点可靠性。(3)设计了一种资源分配调度算法模型,该模型包含系统初始化资源感知调度算法,系统运行中资源重新配置调度算法以及系统灾备调度算法等重要调度算法。该算法模型能根据系统硬件资源使用情况进行任务动态调度,检测系统服务器或任务执行异常并进行系统灾备调度。(4)对整个分布式系统进行系统搭建和测试,对整个系统所有关键模块进行功能测试和性能测试,并对测试结果进行详细分析。本文提供了一个包含图数据在内的通用的多种类型数据分布式处理平台,具有容错性能好,资源调度合理,网络吞吐量大和通用性强等特点,为多种类型海量数据的计算和存储提供了一种设计方案和解决思路。

王平[7](2020)在《分布式流计算平台的设计与实现》文中进行了进一步梳理随着科技的进步,电子商务、社交网络、新闻聚合、视频监控和卫星遥感技术的蓬勃发展。每天都会产生海量的实时数据,这些数据无论是形式还是规模都和传统数据不一样,传统数据一般都是结构化的静态数据,并且规模较小,处理实时性要求不高。实时数据多以流式数据为主,流式数据具有数据规模庞大,数据流向和流速不确定、实时性、非结构化等特点。因此,专门处理流式数据为代表的分布式计算平台应运而生。本论文提出来一种分布式流计算平台,提供低时延、高吞吐的实时流分析服务。在拓扑图中指定应用程序逻辑。本论文将围绕分布式流计算平台中的任务调度算法,容错机制,消息处理机制方面进行研究。主要工作包括以下几点:1)研究当下常见的流计算平台(Storm、Spark Streaming、Flink等)主要研究其调度算法、容错机制和消息机制。分析各个平台的优缺点。2)在任务调度方面,采用基于Qos约束的智能调度算法。在任务调度时,调度算法模块统计计算节点资源使用率,并将资源使用率作为调度的约束条件,不同的资源使用具有不同的权重因子,采用模拟退火算法训练权重因子,这样在不同的运行环境,调度算法智能的调度任务,提高系统吞吐量,增强数据处理能力,提升系统的性能。3)容错机制主要保证系统健壮性,由于分布式系统故障是常态,主板电源等硬件故障和进程崩溃等软件故障都会影响系统健壮性,本文采用复制容错技术和Zookeeper开源组件,保存节点状态信息,提高系统的健壮性。4)消息处理机制主要保证每条消息都会被处理,本文通过消息跟踪机制保证每条消息都会得到处理,引入缓存机制,保证消息处理出错时,消息不会被重复处理,既能提高系统的运行效率,又能提高系统的可靠性。通过对流计算平台的功能和性能测试,调度算法提高了系统的吞吐量降低了时延,容错机制保证了系统的可靠性和健壮性,消息处理机制确保了消息不丢失,最后,对流计算平台进行了总结和未来工作的展望。

王亚文[8](2019)在《云环境下面向科学工作流安全的关键技术研究》文中研究说明云计算提供了一种高效、便捷、灵活、廉价的新型计算模式,成为近十年计算、网络和存储等多个领域中学术界和产业界关注的热点。云计算的普及使得越来越多的科学计算任务转移到云中执行。科学计算任务通常由许多的子任务和中间数据组成,为了在分布式计算环境中对这些复杂的中间环节进行合理的编排、调度、执行和跟踪,科学计算任务通常建模为科学工作流进行处理。云计算弹性的资源管理机制可以使科学工作流的执行更加灵活和经济,但云平台多租户共存的服务模式也会为科学工作流带来严重的安全隐患,比如中断科学工作流的执行、篡改科学工作流的执行结果、窃取科学工作流的中间数据等。现有针对云科学工作流安全性的研究主要考虑的是资源故障引起的异常,忽视了恶意攻击对云科学工作流产生的危害。和传统的云业务工作流相比,云科学工作流的安全问题尤为突出。一、云科学工作流大规模计算特点需要多个虚拟机,在云环境中,虚拟机越多,攻击面越大;二、科学工作流执行时间长,为攻击者提供充足的扫描和渗透时间;三、科学工作流涉及某些重要的科学领域,一旦数据被窃取或者结果被篡改将会带来巨大的损失。因此,为了有效提高云科学工作流抵御恶意攻击的能力,依托网络空间主动防御相关技术理论,研究云环境下面向科学工作流安全的关键技术,从探测扰乱、入侵容忍、异常恢复三个方面入手来阻断攻击链,保障科学工作流执行的可靠性和可信性。本文的主要研究内容包括:(1)为防止攻击者对云科学工作流执行环境的探测和渗透,提出基于攻防博弈模型的云科学工作流调度方法(CLOSURE,CLoud scientific w Orkflow Sched Uling algo Rithm based on attack-defens E game model)在CLOSURE方法中,基于不同操作系统漏洞的攻击视为不同的“攻击”策略,执行科学工作流的虚拟机集群中不同的操作系统分布视为不同的“防御”策略。攻击者和防御者的信息是不对称的,因为防御者无法获取攻击者的策略信息,但是攻击者可以通过网络探测来获取防御者的策略信息。因此,我们提出在科学工作流执行期间动态地变换防御策略,弱化网络探测效果。对于理性攻击者和科学工作流用户,其目标均是收益最大化,因此可以建模为攻防博弈问题。之后,计算攻防博弈模型中的纳什均衡来获取最优混合策略的概率分布。基于此概率,部署多样化的虚拟机来执行科学工作流。此外,提出基于DHEFT(Dynamic Heterogeneous Earliest Finish Time)的任务—虚拟机映射算法来加速防御策略的切换并提高科学工作流执行效率。实验结果表明,和现有算法相比,CLOSURE能降低攻击者的收益约15.23%,降低防御者的时间成本约7.86%。(2)为实现云科学工作流任务的入侵容忍,提出基于拟态防御的云科学工作流系统(MCSW,Mimic Cloud Scientific Workflow)当攻击者成功渗透到云环境时,为保证科学工作流子任务的正确执行,设计MCSW系统。拟态防御的思想包含三个方面:异构性、冗余性和动态性。对于异构性,多样化的虚拟机用于构建鲁棒的系统架构,并利用操作系统间的共同漏洞数量对虚拟机的异构度进行量化。对于冗余性,每一个科学工作流子任务会同时被多个虚拟机执行,以增强科学工作流执行的可靠性。提出滞后裁决机制,在不中断科学工作流执行的条件下检验产生的结果,并评估其置信度。对于动态性,周期性地回收和产生新的虚拟机,消除潜伏的威胁,保证科学工作流执行环境的纯净。此外,提出基于置信度的中间数据备份机制,存储置信度为1的中间数据,当系统中有空闲资源时,存储的中间数据可以用于低置信度子任务的重新执行。实验首先利用Matlab进行系统安全仿真测试,然后利用Workflow Sim进行系统性能评估,最后利用Open Stack构建了小型原型系统,并利用实际的网络攻击进行安全性测试。实验结果表明,MCSW可以有效防范攻击者对科学工作流的中断和篡改。(3)为实现云科学工作流数据的入侵容忍,提出基于安全策略优化的云科学工作流中间数据保护方法(ACISO,Availability Confidentiality Integrity Strategy Optimization)科学工作流包含多个子任务,每个子任务会产生中间数据并作为输入用于后续子任务的执行。科学工作流的正确执行依赖于中间数据的安全性,这些中间数据在科学工作流执行期间会频繁的在虚拟机之间传输。在多租户云中,中间数据包含三个属性:可用性、保密性和完整性。如果中间数据丢失,泄露或被恶意篡改,这些属性就会遭到破坏,导致科学工作流中断、秘密信息泄露以及错误的科学工作流执行结果。针对此问题,提出ACISO方法。在该方法中,利用包含不同参数的纠删码、不同类别的加密算法和哈希函数分别构建可用性、保密性和完整性策略池。然后,我们构建安全策略最优分配模型(SSOA,Security Strategy Optimized Allocation),旨在满足科学工作流完成时间和存储开销的条件下最大化整体中间数据安全强度。通常一个科学工作流包含许多的中间数据,因此求解此模型是一个NP难问题。对此,提出一种启发式算法来求解SSOA。仿真结果表明,ACISO可以有效防范攻击者对科学工作流中间数据的破坏、窃取和篡改。(4)为快速修复云科学工作流异常状态,提出基于任务重要性的多策略云科学工作流保护方法(MSTI,Multi-Strategy cloud scientific workflow protection method based on Task Importance)资源故障和网络攻击均会导致云科学工作流出现异常,为快速修复科学工作流异常状态,提出MSTI方法,该方法将任务冗余和检查点回溯相结合,发挥各自优点。MSTI首先对科学工作流的拓扑结构进行分析,得出不同子任务对于科学工作流完成时间的重要程度也不同的结论,因此提出了科学工作流子任务重要性排序方法,将其划分成三类:高等重要性子任务、中等重要性子任务和低等重要性子任务。对于高等重要性子任务,利用任务冗余的方法将此类子任务复制成多份,并发送到不同的虚拟机中执行。对于中等重要性子任务,存储所有的输入数据作为检查点,当此类子任务出现异常时,通过检查点回溯来修复异常状态。对于低等重要性子任务,不采取保护措施。此外,为了进一步提高科学工作流执行效率,提出基于改进HEFT(Heterogeneous Earliest Finish Time)的虚拟机分配算法,该算法充分考虑了多样化的任务依赖关系。实验结果表明,MSTI能实现快速的科学工作流异常状态修复,降低异常情况下的科学工作流完成时间。本文依托国家自然科学基金群体项目“网络空间拟态防御基础理论研究”,研究成果将为研究拟态防御关键技术提供支撑,拓展拟态防御技术在云科学工作流这个全新领域的应用。

曹书锦[9](2019)在《云环境下截止期约束的科学工作流优化调度算法研究》文中进行了进一步梳理近年来,Iaa S(Infrastructure-as-a-Service)云计算平台在为松散耦合的科学应用(如科学工作流)构建灵活、高效和低成本的运行环境方面显示出巨大潜力。一方面,当Iaa S云提供虚拟资源时,用户可以根据特定应用程序的要求定制执行环境;另一方面,与传统的高性能集群相比,用户可以按需租赁各种类型的云资源,在资源配置灵活性上具有更大的优势。此外,Iaa S云平台按使用量计费的模式允许用户获取“无限”的资源,极大地降低了高性能科学计算的门槛。Iaa S云计算资源按需获取、按需定制和按使用量付费的特征,吸引着越来越多的科学家将科学工作流部署到云环境下。尽管当前Iaa S云计算为科学工作流的执行提供了众多优势,但科学工作流在Iaa S云环境上的高效执行仍然面临资源供给与任务调度难以协同的问题。尤其是当科学工作流的执行具有截止期约束时,为了满足科学工作流的时效性要求,调度算法往往过度配置资源,导致Iaa S云资源利用不充分,造成科学工作流执行费用偏高等问题。为此,本文针对截止期约束的科学工作流费用优化问题提出两个调度算法,以实现云环境下截止期约束的科学工作流执行费用最小化。本文首先在传统启发式算法基础上,提出截止期约束的科学工作流调度算法DCWS(Deadline-Constrained Workflow Scheduling)算法。该算法采用三方面的策略在满足工作流完成时间约束下,对执行费用进行优化。一是,DCWS在计算工作流任务优先级时,将任务之间的通信开销、大量并行任务放置在一起可能带来的负面影响等因素考虑进来,以此避免传统调度算法中并行任务因为具有相同的优先级而大量聚集在一起的问题。其次,DCSW算法在实际调度时,通过任务回填和截止期约束违背惩罚机制来提高资源利用率,并在前序任务延迟的情况下对后续任务进行加速,以确保工作流的整体截止期得到满足。第三,DCSW算法通过实例类型升级策略,在不提高工作流执行费用的情况下,减小工作流的执行时间;同时引入实例降级策略,在满足工作流截止期约束的情况下,通过实例降级,降低科学流的执行费用。实验结果表明,DCWS算法能够在满足工作流截止期约束的情况下,生成比现有调度算法成本更低的调度方案。第二,本文在DCWS算法基础上,提出一种基于竞价型实例的截止期约束科学工作流费用优化算法。竞价型实例是云资源提供商为了吸引用户使用云计算资源,提高资源利用率,而引入的一种基于竞价拍卖的实例类型。竞价型实例相对于按需型实例,在费用上具有很大的优势,能够帮助用户以非常低的费用运行大规模计算任务。尽管如此,竞价型实例可能在任意时刻被云提供商回收,存在执行时间不确定的问题,对科学工作流这种任务之间依赖关系很强的应用具有较大影响。为此,本文提出一种分段优化策略,通过在科学工作流的不同执行阶段使用不同竞价规则,利用竞价型实例工作流的稳定调度。特别地,该算法首先将部署在同一实例上的工作流任务集合按照实例计费区间进行分段;然后将关键路径任务分配到可靠性较高的按需实例上,并对于细粒度任务集合和低利用率分段使用竞价型实例调度。在竞价型实例调度中,该算法引入一种“投机”的竞价手段,通过极端竞价,为小任务获得免费的实例执行时间。实验结果表明,在现有算法的基础上,基于竞价型实例的分段优化策略能够在满足工作流截止期约束情况下,实现执行费用的进一步优化。

王野桥[10](2019)在《云计算环境中多维资源动态优化调度的关键技术研究》文中认为基于虚拟技术的动态资源供给是云计算系统的核心特征之一,它为云计算带来“Pay as you go”的服务模式,在资源池化的基础上使云环境实现弹性、高效的资源管理。面对云环境中存在的负载动态特征日益明显、资源需求多样化以及工作流任务执行可靠性差的问题,如何进行精准的负载预测,如何实现多维度资源的均衡利用,如何保证工作流任务的可靠执行成为当前云计算调度优化研究所面临的几个典型挑战。本文从云环境的动态特性出发,总结分析其对云资源调度的影响,并有针对性地提出相应解决方案。本文将云环境动态特性对资源调度的影响归纳为以下三点:1、非稳定性,是指由任务动态变化导致的云资源利用情况处于不稳定状态,具体表现在无法用稳定的数学模型表征云主机负载的变化规律,而动态变化的负载会影响资源调度的效果,从而无法进一步提高资源的利用效率。2、非均衡性,是指由任务需求的动态性及多样性导致的不同种类云资源利用不均衡状态,这种非均衡特性具体表现在云环境中主机各类资源利用率水平存在较大差异,进而可能出现某类资源耗尽时其他资源依然有较多剩余却无法再被利用的现象。3、非可靠性,是指由云环境大量使用消费级服务器导致的主机故障概率提升,系统可靠性下降,具体表现为节点故障成为系统“常态”,对服务质量有较高要求或对故障敏感的工作流任务将会受到较大影响,降低云系统运行性能。基于以上分析,本文针对云环境动态特征及其对调度优化研究带来的挑战进行深入研究,论文的主要工作和创新点包括:(1)云资源调度中具有误差补偿的分解-合成式负载预测算法研究针对云环境中资源利用情况动态变化的非稳定特性,本文针对该问题提出具有误差补偿的分解-合成预测(DCEC)算法对主机负载进行预测来减少上述不确定性对调度的影响,本文基于对实际负载数据的统计分析,总结云负载的特征,据此按照负载构成对主机负载进行分解,将动态复杂的主机负载分解为若干独立简单的任务负载,利用改进的卡尔曼滤波算法对任务负载进行预测,再对预测结果进行误差修正及合成形成最终预测结果。本文基于真实负载数据验证预测算法的有效性,验证了提出的负载预测算法可行性与有效性。(2)基于2D-BPSO虚拟机与容器相结合的多维资源调度研究针对云环境中各类资源利用的非均衡特性,本文引入近年来兴起的容器虚拟技术,利用容器轻量、易于迁移的特性,提出一种虚拟机-容器混合分级的多维资源调度机制,综合虚拟类型及调度状态对任务进行分级,制订了不同级别任务的初始调度策略,及任务迁移时,多级任务的组合优化方案。本文以均衡多维资源利用率为优化目标,设计多维资源均衡指标,采用改进的粒子群优化(PSO)算法对提出的调度问题进行优化,将传统的一维PSO算法扩展到二维空间,并进一步给出PSO扩展到N维空间的一般形式,设计一种基于二值算子(binary-operator)的迭代更新策略,构成基于二值算子的二维 BPSO 算法完成问题优化。容器虚拟技术是云计算虚拟化的新模式与新方向,本文利用容器轻量化特点对服务器间资源利用不均衡进行调节,与传统的虚拟机技术形成互补优势,提出适用于多维资源调度的2D-BPSO元启发算法,并设计实现仿真程序,仿真结果验证了提出算法的可行性,并可以有效提高各类资源的利用效率与利用均衡度。(3)面向可靠性的工作流任务调度研究针对云环境中节点故障成为常态的非可靠性特征,本文选取对系统可靠性有较高要求的工作流任务调度问题进行研究,传统工作流任务调度研究常以固定结构工作流为研究对象,以任务完成时间或成本为优化目标,采用静态调度方法为核心算法对工作流调度问题进行研究,但在云环境中,种类多样、流式处理的工作流任务成为调度的主要对象,与此同时虚拟机节点故障或服务器节点故障都会对具有依赖关系的工作流任务造成重要影响,本文提出一种面向可靠性的工作流任务调度机制,利用有向无环图(DAG)对工作流任务建模,利用主副本技术实现工作流任务的容错调度,本文在非可靠的云环境上,改进经典HEFT算法提出容错调度算法FT-HEFT,在理论上推导出实现容错调度需要满足的约束条件,以现实中典型工作流为基础,模拟流式处理应用场景进行仿真实验,实验结果验证了提出算法的可行性,在保证任务可靠执行的前提下,优化了工作流任务的完成时间与成本,并在与其他调度算法对比中验证了算法优化效果,对云环境中工作流任务的容错调度工作具有指导意义。综上所述,本文以云环境的非稳定性、非均衡性以及非可靠性为研究切入点,针对每个点带来的问题提出相应解决方案。根据应用场景的不同云环境表现出的动态特性具有不同的侧重,本文的研究内容之间既可以独立应用又可以相互配合,云负载预测可以为多维资源调度和工作流任务调度提供资源需求预分配支持,多维资源均衡调度可以为负载预测和工作流调度提供更加平稳的应用环境,工作流容错调度则可以成为负载预测和多维资源均衡调度的鲁棒性保证。这三个研究内容之间在相互提供支持的同时,也存在资源竞争等问题,如何协调好这三者之间的关系将是后续研究的发展方向。

二、一种并行/容错系统的任务调度算法(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一种并行/容错系统的任务调度算法(论文提纲范文)

(1)多路实时监控视频数据处理与分析系统的设计与实现(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 国内外研究历史与现状
        1.2.1 监控视频数据处理与分析现状
        1.2.2 流式计算研究现状
    1.3 本文的主要贡献与创新
    1.4 本论文的结构安排
第二章 理论基础及相关技术
    2.1 流计算开源框架
        2.1.1 Apache Storm
        2.1.2 Apache Spark
        2.1.3 Apache Flink
    2.2 视频数据处理相关技术
        2.2.1 H264 视频压缩算法
        2.2.2 视频软解码技术
        2.2.3 视频硬解码技术
    2.3 本章小结
第三章 实时监控视频数据处理与分析关键技术及算法
    3.1 轻量级流计算架构
        3.1.1 架构设计
        3.1.2 设计特点
    3.2 基于资源感知的调度算法
        3.2.1 调度算法问题分析
        3.2.2 调度算法的相关参数分析
        3.2.2.1 任务参数分析
        3.2.2.2 资源参数分析
        3.2.3 调度算法模型
    3.3 异构协同工作机制
        3.3.1 视频处理问题分析
        3.3.2 异构协同工作机制方案设计
    3.4 人脸跟踪去重算法
    3.5 本章小结
第四章 多路实时监控视频数据处理与分析系统的设计与实现
    4.1 系统架构设计
        4.1.1 控制节点
        4.1.2 工作节点
    4.2 控制节点关键模块的设计与实现
        4.2.1 资源管理模块
        4.2.2 任务调度模块
        4.2.3 主从复制模块
        4.2.4 视觉目标统计模块
        4.2.5 元数据管理模块
    4.3 工作节点关键模块的设计与实现
        4.3.1 资源监测模块
        4.3.2 视频流数据处理模块
        4.3.3 视频流数据分析模块
        4.3.4 人脸跟踪去重模块的设计
    4.4 系统主要流程设计
        4.4.1 系统启动
        4.4.2 任务的启动
    4.5 本章小结
第五章 系统测试与结果分析
    5.1 测试环境
    5.2 功能测试
        5.2.1 .工作节点管理的测试
        5.2.2 任务调度的测试
        5.2.3 视频数据处理与分析的测试
        5.2.4 主从协调的测试
        5.2.5 跟踪去重的测试
        5.2.6 视觉目标统计的测试
    5.3 性能测试
        5.3.1 DRSA任务调度算法性能的测试
        5.3.2 流计算框架性能的测试
        5.3.3 系统延时性能的测试
    5.4 本章小结
第六章 总结与展望
致谢
参考文献
攻读硕士期间取得的成果

(2)大规模云计算系统的可靠性建模及优化研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景
        1.1.1 大规模云计算系统概述
        1.1.2 云计算可靠性概述
    1.2 关键技术与研究现状
        1.2.1 关键技术
        1.2.2 研究现状
    1.3 问题分析
    1.4 研究内容与创新点
    1.5 论文组织结构
第二章 基于成本约束的多指标关联建模与优化
    2.1 引言
    2.2 基于可靠性的关联建模分析
    2.3 可靠性提升中的成本约束设计
    2.4 基于关联优化的可靠性保障技术
        2.4.1 成本约束的可靠性保障框架
        2.4.2 可靠性-能耗关联优化的虚拟机迁移算法
        2.4.3 满足成本约束的物理节点调度算法
    2.5 实验与分析
        2.5.1 面向SLA的可靠性保障的实验与分析
        2.5.2 成本约束下能耗模型的实现方法
        2.5.3 JORE-RSA的模拟和评估
    2.6 本章小结
第三章 面向云服务的可靠性建模与优化
    3.1 引言
    3.2 基于服务过程的云服务可靠性模型
        3.2.1 服务请求处理阶段的可靠性模型
        3.2.2 服务执行阶段的可靠性模型
    3.3 云服务可靠性保障的动态优化技术
        3.3.1 服务请求到达率驱动的动态调度技术
        3.3.2 基于服务状态监控的故障自修复技术
    3.4 实验与分析
        3.4.1 服务请求处理阶段的实验与分析
        3.4.2 服务执行阶段的实验与分析
    3.5 本章小结
第四章 基于容错技术的大数据作业可靠性建模
    4.1 引言
    4.2 基于检查点容错技术的大数据作业可执行性模型
        4.2.1 云计算系统下的检查点技术特征
        4.2.2 基于检查点的可执行性关联模型
        4.2.3 大数据作业可执行指标递归求解
    4.3 基于实时冗余技术的并行大数据作业可靠性模型
        4.3.1 云计算系统下的实时冗余并行计算
        4.3.2 最小作业生成树的定义和表示方法
        4.3.3 基于贝叶斯理论的可靠性评估方法
    4.4 实验与分析
        4.4.1 检查点技术下的可执行性评估实验与分析
        4.4.2 实时冗余计算下的可靠性评估实验与分析
    4.5 本章小结
第五章 全文总结与展望
    5.1 全文总结
    5.2 后续工作展望
致谢
参考文献
攻读博士学位期间取得的成果

(3)列控安全计算机分区软件的形式化建模与验证方法研究(论文提纲范文)

致谢
摘要
ABSTRACT
术语表
1 引言
    1.1 研究背景
    1.2 安全计算机的综合模块化
        1.2.1 安全计算机简介
        1.2.2 安全计算机发展趋势
        1.2.3 分区的概念及意义
    1.3 形式化方法
        1.3.1 形式化方法分类
        1.3.2 形式化方法选择
    1.4 选题意义
    1.5 论文结构与写作安排
2 列控安全计算机分区软件研究综述
    2.1 安全计算机分区软件
        2.1.1 分区软件结构
        2.1.2 分区隔离机制
        2.1.3 分区软件特性
    2.2 分区软件形式化研究的需求
        2.2.1 形式化研究的必要性
        2.2.2 分区软件的建模和验证需求
    2.3 研究现状
        2.3.1 形式化证明
        2.3.2 时间Petri网
    2.4 存在的问题
        2.2.1 安全性方面
        2.2.2 实时性方面
        2.2.3 可调度性方面
    2.5 本章小结
3 基于并发分离逻辑的分区并行程序安全性验证
    3.1 并行程序安全性
    3.2 基于事务内存的安全机制设计
    3.3 并行程序安全机制验证
        3.3.1 不变式证明
        3.3.2 并发分离逻辑
        3.3.3 安全性的验证方法
    3.4 抽象机模型设计
    3.5 推理规则的定义
    3.6 可靠性证明
    3.7 实验验证
        3.7.1 平台搭建
        3.7.2 验证结果与分析
    3.8 本章小结
4 基于随机时间Petri网的分区通信实时性验证
    4.1 分区通信
        4.1.1 通信网络
        4.1.2 通信管理机制
        4.1.3 时延分析
        4.1.4 数据类型
    4.2 随机时间Petri网
        4.2.1 随机Petri网相关概念
        4.2.2 连续时间马尔科夫链的求解
        4.2.3 网络性能关键参数的求解
        4.2.4 随机时间Petri的定义
    4.3 随机时间Petri网瞬态分析算法
        4.3.1 随机状态类的定义
        4.3.2 通过枚举类的状态空间分析
        4.3.3 基于马尔科夫再生理论的瞬态概率的计算
        4.3.4 算法实例及验证
    4.4 分区通信模型建立
    4.5 分区通信模型分析
        4.5.1 参数选取及量化指标
        4.5.2 结果分析
    4.6 实验验证
        4.6.1 平台搭建
        4.6.2 验证结果与分析
    4.7 本章小结
5 基于带有优先级时间Petri网的分区可调度性验证
    5.1 实时调度
        5.1.1 实时系统及相关概念
        5.1.2 实时调度算法
    5.2 分区调度的时域模型
    5.3 带有优先级时间Petri网
        5.3.1 定义
        5.3.2 基于状态空间枚举的分析算法
    5.4 双层调度模型建立
    5.5 双层调度模型分析
        5.5.1 复杂度分析
        5.5.2 验证结果
    5.6 实验验证
        5.6.1 平台搭建
        5.6.2 验证结果与分析
    5.7 本章小结
6 结论
    6.1 论文工作总结
    6.2 未来工作展望
参考文献
图索引
表索引
作者简历及攻读博士学位期间取得的研究成果
学位论文数据集

(4)面向云平台IaaS层的能效问题研究(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 研究思路
    1.3 研究内容与创新点
    1.4 组织结构
2 相关工作和概念
    2.1 相关工作
        2.1.1 科学工作流成本最小化相关研究
        2.1.2 数据中心功耗及稳定性相关研究
    2.2 相关概念
        2.2.1 科学工作流
        2.2.2 静态调度与动态调度
        2.2.3 IaaS层
        2.2.4 热迁移
3 科学工作流成本压缩调度算法
    3.1 前言
        3.1.1 研究背景与动机
        3.1.2 相关研究
        3.1.2.1 计算环境和优化目标
        3.1.2.2 优化方法
    3.2 问题定义
        3.2.1 科学应用模型
        3.2.2 云平台模型
        3.2.3 虚拟机模型
        3.2.4 问题定义
        3.2.4.1 虚拟机数量最小化
        3.2.4.2 实例小时数量最小化
    3.3 虚拟机最小化
        3.3.1 虚拟机数量的上下限
        3.3.1.1 虚拟机数量的上限
        3.3.1.2 虚拟机数量的下限
        3.3.2 可满足性模理论
        3.3.3 虚拟机数量最小化问题的SMT模型
        3.3.4 基于SMT的启发式算法
    3.4 实例小时最小化
        3.4.1 实例小时最小化问题分析
        3.4.2 单策略算法(Single Strategy Algorithm,SSA)
        3.4.3 多策略算法(Multiple Strategy Algorithm,MSA)
        3.4.3.1 MSA中的策略
        3.4.3.2 合并机制
        3.4.3.3 多策略算法
        3.4.4 实例小时最小化问题复杂度分析
    3.5 性能评估
        3.5.1 虚拟机最小化评估
        3.5.1.1 实验设置及相关参数
        3.5.1.2 实验结果
        3.5.2 实例小时最小化评估
        3.5.2.1 评价标准
        3.5.2.2 实验结果
        3.5.3 综合评估
        3.5.3.1 评价标准
        3.5.3.2 实验结果
    3.6 本章小结
4 混合使用多核虚拟机的工作流调度算法
    4.1 引言
        4.1.1 技术背景
        4.1.2 相关研究
    4.2 符号及模型
        4.2.1 系统相关模型
        4.2.1.1 科学工作流模型
        4.2.1.2 云平台模型
        4.2.1.3 虚拟机运行多任务模型
        4.2.1.4 收费模型
        4.2.2 问题定义
    4.3 成本最小化算法
        4.3.1 基本思想
        4.3.2 COMSE算法
        4.3.2.1 CombineTasks()函数
        4.3.2.2 SplitLevels()函数
        4.3.2.3 SplitDeadline()函数
        4.3.2.4 Schedule()函数
        4.3.2.5 MinimizeInstanceHours()函数
        4.3.3 COMSE的框架
        4.3.4 复杂度分析
    4.4 性能评估
        4.4.1 测试集与评价标准
        4.4.2 性能对比
    4.5 本章小结
5 面向大规模科学应用容错的调度机制
    5.1 引言
        5.1.1 研究背景
        5.1.2 相关研究
    5.2 符号及模型
        5.2.1 科学工作流模型
        5.2.2 云平台模型
        5.2.3 快照模型
        5.2.4 错误模型
        5.2.5 主要相关符号定义
        5.2.6 问题定义
    5.3 容错机制
        5.3.1 基本思想
        5.3.2 FAUSIT容错机制
        5.3.2.1 DetermineKeyTasks()函数
        5.3.2.2 DeployKeyTasks()函数
        5.3.3 FAUSIT的可行性说明
    5.4 实验与评估
        5.4.1 实验设置
        5.4.2 评价指标
        5.4.3 参数(?)的取值
        5.4.4 实验结果
    5.5 本章小结
6 基于周期性负载的海量虚拟机调度
    6.1 引言
    6.2 符号与定义
        6.2.1 虚拟机模型
        6.2.2 物理机模型
        6.2.3 问题定义
    6.3 负载预测
        6.3.1 基本思想
        6.3.2 周期负载预测算法(CUP)
        6.3.3 CUP的预测性能展示
    6.4 基于预测负载的虚拟机调度算法(VCPL)
        6.4.1 VCPL的基本思想
        6.4.2 VCPL算法
        6.4.2.1 Classify()函数
        6.4.2.2 Consolidate()函数
    6.5 性能评估
        6.5.1 数据集、实验设置和性能指标
        6.5.2 预测负载对调度的影响
        6.5.3 算法对比
    6.6 本章小结
7 结论与展望
    7.1 结论
    7.2 创新点
    7.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介

(5)Apache Spark分布式并行计算框架优化技术研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 面临的性能问题
    1.3 国内外研究现状
        1.3.1 算法并行化研究
        1.3.2 框架优化研究
    1.4 研究内容
    1.5 本文组织结构
第2章 相关理论
    2.1 Map Reduce编程模型
    2.2 Spark平台概述
    2.3 Spark系统架构
        2.3.1 Spark架构及运行流程
        2.3.2 DAG以及阶段划分
        2.3.3 RDD简介
    2.4 Spark Shuffle机制
    2.5 本章小结
第3章 Spark异构环境中一种智能推测执行策略
    3.1 引言
    3.2 Straggler原因分析
    3.3 已有策略及缺陷
        3.3.1 Spark-Original策略
        3.3.2 MPTE策略
    3.4 ETWR设计
        3.4.1 选择备份任务
        3.4.2 保证推测任务有效性
        3.4.3 选取备份节点
        3.4.4 小结
    3.5 性能评估
        3.5.1 实验设置
        3.5.2 异构环境
        3.5.3 同构环境
        3.5.4 参数分析
        3.5.5 调度时间开销
    3.6 本章小结
第4章 Spark中一种基于二分图建模的最优本地性感知任务调度算法
    4.1 引言
    4.2 问题描述
    4.3 任务调度算法
        4.3.1 Map任务调度建模
        4.3.2 Reduce任务调度建模
        4.3.3 最优任务调度方案
        4.3.4 任务调度问题转换
        4.3.5 本地性感知任务调度算法
    4.4 性能评估
        4.4.1 实验设置
        4.4.2 性能
    4.5 本章小结
第5章 Spark中一种优化总通信距离的Executor分配方法
    5.1 引言
    5.2 问题描述
    5.3 Executor分配方法
        5.3.1 最优Executor分配问题
        5.3.2 近似算法
        5.3.3 Executor集合扩充算法
    5.4 性能评估
        5.4.1 实验设置
        5.4.2 性能
    5.5 本章小结
第6章 Spark Streaming环境中一种自适应中间数据分区方法
    6.1 引言
    6.2 系统概述
    6.3 中间数据预测
    6.4 优化范围分区器
        6.4.1 问题定义
        6.4.2 确定分区边界
        6.4.3 分割边界Key集群
        6.4.4 异构环境
        6.4.5 数据分区算法
    6.5 性能评估
        6.5.1 实验设置
        6.5.2 性能
    6.6 本章小结
总结与展望
    1.本文工作总结
    2.未来工作展望
参考文献
附录 A 攻读学位期间所发表的学术论文
附录 B 攻读学位期间所参加的科研项目及申请的专利
致谢

(6)基于图计算的并行海量数据处理平台(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究工作的背景及意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 论文的主要贡献与创新
    1.4 论文组织结构安排
第二章 相关理论以及技术基础
    2.1 典型分布式计算系统
        2.1.1 分布式批处理计算系统
        2.1.2 分布式流处理计算系统
        2.1.3 分布式图并行计算系统
    2.2 控制信息数据管理模型
        2.2.1 中心化控制信息数据管理模型
        2.2.2 去中心化控制信息数据管理模型
    2.3 常见资源感知调度算法模型
        2.3.1 基于背包问题的资源感知调度算法模型
        2.3.2 轮询资源调度算法模型
        2.3.3 基于图并行计算的资源分配调度算法模型
    2.4 开源框架的控制信息数据管理模型与资源感知调度算法
        2.4.1 常见分布式系统控制信息数据管理模型与资源感知调度算法
        2.4.2 图计算控制信息数据管理模型与资源感知调度算法
    2.5 本章小结
第三章 系统关键技术设计
    3.1 控制信息数据管理模型
        3.1.1 主备节点一致性协议设计
        3.1.2 一致性哈希磁盘存储协议设计
    3.2 资源感知调度算法设计
        3.2.1 资源调度问题概述
        3.2.2 本系统设计的多种资源调度模型
    3.3 系统存储引擎设计
    3.4 本章小结
第四章 海量数据处理系统的设计
    4.1 系统架构设计
        4.1.1 GraphMaster节点架构设计
        4.1.2 GraphSlave节点架构设计
        4.1.3 GraphWorker节点架构设计
    4.2 GraphMaster节点关键模块设计
        4.2.1 任务管理模块设计
        4.2.2 动态链接库调度模块设计
        4.2.3 资源调度分配算法模块设计
        4.2.4 主备节点容错算法模块设计
        4.2.5 一致性哈希磁盘存储模块设计
    4.3 系统运行流程设计
        4.3.1 系统初始化
        4.3.2 任务执行流程
        4.3.3 任务终止
    4.4 本章小结
第五章 海量数据处理系统的关键模块流程解析
    5.1 控制信息数据管理模块实现解析
        5.1.1 主备节点容错算法模块
        5.1.2 一致性哈希磁盘存储协议模块
    5.2 资源感知调度算法模块实现解析
    5.3 网络库模块实现解析
    5.4 其他模块实现解析
    5.5 本章小结
第六章 系统测试与测试结果分析
    6.1 测试环境搭建
        6.1.1 测试环境配置
        6.1.2 测试部署及测试项目
    6.2 关键模块测试及系统功能测试
        6.2.1 主备节点容错算法模块测试
        6.2.2 一致性哈希磁盘存储协议测试
        6.2.3 动态链接库调度模块测试
        6.2.4 GraphSlave节点测试
        6.2.5 资源感知调度分配算法模块测试
        6.2.6 心跳保活模块测试
    6.3 系统性能测试
    6.4 系统测试结果分析
    6.5 本章小结
第七章 总结与展望
    7.1 论文工作总结
    7.2 后序工作展望和规划
致谢
参考文献
攻读硕士学位期间取得的成果

(7)分布式流计算平台的设计与实现(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究的背景及意义
    1.2 国内外研究现状
    1.3 本文的主要贡献和创新
    1.4 论文结构安排
第二章 典型系统和理论基础
    2.1 流计算平台的架构和调度算法
        2.1.1 Apache Storm的架构和调度算法
        2.1.2 Apache Spark Streaming的架构和调度算法
        2.1.3 Apache Flink的架构和调度算法
    2.2 调度算法
        2.2.1 通用的调度算法
        2.2.2 启发式调度算法
        2.2.2.1 遗传算法
        2.2.2.2 蚁群算法
    2.3 容错机制
        2.3.1 复制容错技术
        2.3.2 Zookeeper组件
    2.4 消息处理机制
        2.4.1 消息重发机制
        2.4.2 消息去重机制
    2.5 编程模型
        2.5.1 Actor模型
        2.5.2 MapReduce模型
        2.5.3 Tuple模型
    2.6 通信模型
        2.6.1 线程模型
        2.6.2 I/O模型
    2.7 分布式流计算平台的专业术语
        2.7.1 有向无环图
        2.7.2 拓扑图
        2.7.3 工作进程
        2.7.4 并行度
    2.8 本章小结
第三章 分布式流计算平台的设计
    3.1 系统总体架构
        3.1.1 控制节点
        3.1.2 Zookeeper集群
        3.1.3 计算节点
    3.2 控制节点关键模块的设计
        3.2.1 调度算法模块
        3.2.1.1 调度模型
        3.2.1.2 影响任务调度因素
        3.2.1.3 节点运行状态
        3.2.1.4 基于Qos约束的智能调度算法
        3.2.1.5 训练权重因子
        3.2.2 资源管理模块
        3.2.3 任务管理模块
        3.2.3.1 DAG解析
        3.2.3.2 DAG管理
        3.2.3.3 任务管理
        3.2.4 主备协调模块
    3.3 计算节点关键子模块
        3.3.1 监控模块
        3.3.2 消息处理
        3.3.2.1 消息处理失败检测
        3.3.2.2 消息重发机制
        3.3.3 计算节点间的通信
    3.4 系统主要流程设计
        3.4.1 系统启动流程
        3.4.2 任务启动流程
        3.4.3 消息处理流程
    3.5 本章小结
第四章 分布式流计算平台的实现
    4.1 控制节点的实现
        4.1.1 调度算法的实现
        4.1.2 资源管理模块的实现
        4.1.3 任务管理模块的实现
        4.1.4 主备协调模块的实现
    4.2 计算节点的实现
        4.2.1 消息失败处理检测的实现
        4.2.2 消息重发机制的实现
        4.2.3 本地资源获取的实现
        4.2.4 管理Worker的实现
    4.3 网络通信的实现
    4.4 定时器的实现
    4.5 本章小结
第五章 测试与分析
    5.1 测试环境
        5.1.1 测试环境
    5.2 功能测试
        5.2.1 控制节点测试
        5.2.2 计算节点测试
        5.2.3 消息可靠性功能测试
    5.3 性能测试
    5.4 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 后续工作展望
致谢
参考文献
攻读硕士期间取得的研究成果

(8)云环境下面向科学工作流安全的关键技术研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景和意义
        1.1.1 云计算
        1.1.2 科学云
        1.1.3 云环境下的科学工作流
        1.1.4 云科学工作流安全问题
        1.1.5 课题来源与研究意义
    1.2 研究现状
        1.2.1 云科学工作流任务安全研究现状
        1.2.2 云科学工作流数据安全研究现状
        1.2.3 问题总结
    1.3 主要研究内容
    1.4 本文组织结构
第二章 基于攻防博弈模型的云科学工作流调度方法
    2.1 引言
    2.2 云科学工作流系统面临的渗透威胁
    2.3 CLOSURE方法原理
        2.3.1 CLOSURE方法概述
        2.3.2 多样化的虚拟机
        2.3.3 基于攻防博弈模型的资源提供策略
        2.3.4 基于DHEFT的任务—虚拟机映射算法
    2.4 实验
        2.4.1 实验设置
        2.4.2 对比方法
        2.4.3 实验结果
    2.5 本章小结
第三章 基于拟态防御的云科学工作流容侵系统
    3.1 引言
    3.2 云科学工作流面临的容侵挑战
    3.3 MCSW系统
        3.3.1 总体概述
        3.3.2 任务执行体集群部署方法
        3.3.3 滞后裁决机制
        3.3.4 动态执行体轮换策略
        3.3.5 基于置信度的中间数据备份机制
    3.4 实验
        3.4.1 基于Matlab的系统安全评估
        3.4.2 基于WorkflowSim的系统仿真测试
        3.4.3 基于OpenStack的系统实际测试
    3.5 本章小结
第四章 基于安全策略优化的云科学工作流中间数据保护方法
    4.1 引言
    4.2 云科学工作流中间数据威胁分析
    4.3 中间数据的安全策略
        4.3.1 安全策略应用概述
        4.3.2 中间数据可用性策略池
        4.3.3 中间数据保密性策略池
        4.3.4 中间数据完整性策略池
    4.4 ACISO方法
        4.4.1 SSOA模型
        4.4.2 问题转换
        4.4.3 启发式求解算法
    4.5 仿真
        4.5.1 仿真设置
        4.5.2 对比算法
        4.5.3 仿真结果
    4.6 本章小结
第五章 基于任务重要性的多策略云科学工作流保护方法
    5.1 引言
    5.2 科学工作流完成时间分析
    5.3 科学工作流中的路径定义
    5.4 异常引起的科学工作流延迟效果分析
    5.5 MSTI方法
        5.5.1 多策略状态保护方法
        5.5.2 虚拟机分配算法
        5.5.3 MSTI方法的步骤
    5.6 实验与分析
        5.6.1 实验设置
        5.6.2 多策略状态保护方法测试
        5.6.3 虚拟机分配算法测试
        5.6.4 MSTI方法的资源需求评估
    5.7 本章小结
第六章 总结与展望
    6.1 论文主要研究成果和创新点
    6.2 下一步的研究展望
致谢
参考文献
作者简历

(9)云环境下截止期约束的科学工作流优化调度算法研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状与问题分析
        1.2.1 基于截止期约束的工作流调度算法
        1.2.2 基于竞价型实例的工作流调度算法
        1.2.3 基于费用约束的工作流调度算法
        1.2.4 存在问题分析
    1.3 论文研究内容
        1.3.1 主要研究内容
        1.3.2 研究目标
    1.4 论文组织结构
第二章 系统模型
    2.1 应用模型
    2.2 资源模型
        2.2.1 Amazon EC2 按需实例
        2.2.2 Amazon EC2 竞价型实例
        2.2.3 实例资源建模
    2.3 调度模型
    2.4 本章小结
第三章 截止期约束的工作流调度费用优化
    3.1 基于通信开销的截止期划分优化方法
    3.2 费用优化调度算法实现
    3.3 调度方案优化策略
        3.3.1 按需实例类型升级
        3.3.2 按需实例类型降级
    3.4 实验结果及性能分析
        3.4.1 实验设置
        3.4.2 度量指标
        3.4.3 实验结果
    3.5 本章小结
第四章 基于竞价型实例的调度费用再优化
    4.1 初始调度方案生成
    4.2 实例分段策略
        4.2.1 实例分段的场景描述
        4.2.2 算法实现
    4.3 竞价型实例调度的容错机制
    4.4 实验结果及性能分析
        4.4.1 实验设置
        4.4.2 度量指标
        4.4.3 实验结果
    4.5 本章小结
第五章 总结与展望
    5.1 工作总结
    5.2 工作展望
致谢
参考文献
作者在学期间取得的学术成果
附录 A 作者攻读硕士学位期间申请的专利

(10)云计算环境中多维资源动态优化调度的关键技术研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 云调度技术研究现状
    1.3 研究内容
    1.4 论文组织结构
第二章 调度技术概述及云计算调度模型设计
    2.1 调度技术概述
        2.1.1 一般调度问题研究
        2.1.2 云环境中调度问题研究
    2.2 云计算调度模型设计
        2.2.1 资源模型
        2.2.2 主机模型
        2.2.3 调度对象模型
        2.2.4 优化模型
第三章 云资源调度中具有误差补偿的分解—合成式负载预测算法研究
    3.1 研究背景
    3.2 负载数据选择与分析
    3.3 算法设计
        3.3.1 改进的卡尔曼滤波预测算法
        3.3.2 基于马尔科夫链的预测误差补偿方法
    3.4 实验结果
        3.4.1 改进的卡尔曼滤波预测算法
        3.4.2 基于马尔科夫链的误差补偿算法
        3.4.3 具有误差补偿的分解—合成的负载预测算法
    3.5 本章小结
第四章 基于2D-BPSO虚拟机与容器相结合的多维资源调度研究
    4.1 研究背景
    4.2 虚拟机-容器混合层级云资源调度机制
        4.2.1 云资源与任务模型
        4.2.2 虚拟机-容器混合调度机制
        4.2.3 资源调度优化问题
    4.3 改进的2D-BPSO调度算法
        4.3.1 PSO算法概述
        4.3.2 2D-BPSO调度算法
    4.4 实验结果
        4.4.1 VM与容器任务模拟器
        4.4.2 优化指标仿真结果与分析
    4.5 本章小结
第五章 云环境中工作流任务容错调度机制研究
    5.1 研究背景
    5.2 工作流任务容错调度机制
        5.2.1 工作流任务模型
        5.2.2 容错调度机制
        5.2.3 调度系统模型
    5.3 算法设计
        5.3.1 基于主副本技术的容错机制研究
        5.3.2 云环境中弹性容错调度算法研究
    5.4 实验结果
        5.4.1 实验环境
        5.4.2 实验结果及分析
    5.5 本章小结
第六章 总结与展望
    6.1 研究总结
    6.2 研究展望
参考文献
致谢
攻读学位期间发表的学术论文

四、一种并行/容错系统的任务调度算法(论文参考文献)

  • [1]多路实时监控视频数据处理与分析系统的设计与实现[D]. 杜爽. 电子科技大学, 2021(01)
  • [2]大规模云计算系统的可靠性建模及优化研究[D]. 孟飒. 电子科技大学, 2021(01)
  • [3]列控安全计算机分区软件的形式化建模与验证方法研究[D]. 张玉琢. 北京交通大学, 2020(02)
  • [4]面向云平台IaaS层的能效问题研究[D]. 吴昊. 大连理工大学, 2020(01)
  • [5]Apache Spark分布式并行计算框架优化技术研究[D]. 付仲明. 湖南大学, 2020(02)
  • [6]基于图计算的并行海量数据处理平台[D]. 周伟琴. 电子科技大学, 2020(07)
  • [7]分布式流计算平台的设计与实现[D]. 王平. 电子科技大学, 2020(07)
  • [8]云环境下面向科学工作流安全的关键技术研究[D]. 王亚文. 战略支援部队信息工程大学, 2019(02)
  • [9]云环境下截止期约束的科学工作流优化调度算法研究[D]. 曹书锦. 国防科技大学, 2019(02)
  • [10]云计算环境中多维资源动态优化调度的关键技术研究[D]. 王野桥. 北京邮电大学, 2019(01)

标签:;  ;  ;  ;  ;  

一种并行/容错系统的任务调度算法
下载Doc文档

猜你喜欢