一种基于负载特征分析的深度学习应用云配置推荐方法及系统技术方案

技术编号:29219041 阅读:24 留言:0更新日期:2021-07-10 00:58
本发明专利技术涉及一种基于负载特征分析的深度学习应用云配置推荐方法及系统,包括特征分析器,配置推荐器,工作负载执行器,负载运行数据收集器,可视化交互器五部分。本发明专利技术采用了负载特征分析的方法,提取负载特征向量,提高了黑盒模型预测的准确性,同时保持了良好的可拓展性,也能根据客户的具体需求推荐更合适的配置;提出了更高效的运行时资源使用数据采集方法,大幅降低了负载特征向量提取的时间成本,进一步提高了云配置推荐系统的收益;提供了一个可供用户交互的管理界面,用户可以通过界面提交自定义的工作负载,获取推荐的配置,快捷部署相应环境,运行工作负载,并获取实时资源使用数据。使用数据。使用数据。

【技术实现步骤摘要】
一种基于负载特征分析的深度学习应用云配置推荐方法及系统


[0001]本专利技术涉及一种基于负载特征分析的深度学习应用云配置推荐方法及系统,属于云服务和计算


技术介绍

[0002]在信息时代,云服务所使用的数据量日益增加,大数据已经和云计算紧密结合。大数据应用运行在云环境已经成为云计算发展的重要趋势之一。Gartner报告指出,超过半数的全球大型组织的大数据应用正在向云环境迁移。微软的报告指出,40%的大数据应用具有周期性处理相似规模数据的特点,如销售额日统计、月统计、舆情分析等。与此同时,主流公有云厂商(阿里云ECS、亚马逊EC2、微软Azure)提供了超过100种可选云配置,以云主机实例类型(VM instance type)的方式提供服务。
[0003]同时,云服务内部所采用的算法日益复杂,从传统的大数据框架(如Spark,Hadoop等)到深度学习架构。自从2012年在ImageNet图像识别大赛中AlexNet以大幅度的准确率提升一举夺冠,采用深度神经网络进行机器学习的方法成为了研究热点,并在计算机视觉,自然语言处理,推荐系统中取得了巨大的成功。2014年,Facebook基于深度学习技术的DeepFace项目,在人脸识别方面的准确率已经能达到97%以上,跟人类的识别准确率几乎没有差别。基于深度神经网络的人工智能项目也被广泛应用到各个生活场景中,包括各种APP的人脸识别,机器翻译,语音识别,电商平台商品推荐等。
[0004]目前主流的深度学习应用有卷积神经网络(代表有AlexNet,ResNet,Vgg,DenseNet)、循环神经网络(代表有LSTM,GRU)、对抗网络模型(代表有GAN)、协同过滤模型(代表有NCF)等。与传统大数据应用不同,深度学习应用具有计算量大,数据存储量大,内部通信开销大的特点。一个深度学习应用负载的运行时长可能会长达一周,因此难以多次运行应用负载来搜索最佳配置。总而言之,深度学习应用负载对资源的需求更加多样、运行成本更高、模型更加复杂。这对用户选取云配置的策略提出了更高的要求,也给云配置推荐算法设计带来了困难。同时,微软的研究人员指出现有的人工选择方式为深度学习工作负载选取的配置的GPU利用率不高,均值在50%左右。
[0005]选择合适的云配置可以有效提升公有云环境下大数据应用的服务质量Service

Level Agreement(SLA)。实验数据表明,针对同一任务,最佳的云配置相对于最差云配置,在任务完成时间上相差10倍,运行费用相差12倍。因此,研发面向深度学习应用的云配置推荐系统意义重大。
[0006]近年来,相关工作在解决云配置选择问题时主要有以下两种研究思路:1)数据驱动的方法:该类方法通常以大量离线数据作为输入条件,通过数据样本对性能模型进行训练,训练好的模型用于预测可选云配置的性能。然而,此类方法数据获取成本较高,通常适用于跨云配置推荐场景;2)全量配置搜索的方法:该类方法将应用看作黑盒,以所有候选的云配置作为搜索空间,通过自身的运行数据不断迭代优化。然而,该类方法在配置选项较多
时,存在搜索空间过大容易陷入局部最优解的问题。使用白盒建模的方法只能针对特定的工作负载,准确度高但是泛用性低,要求算法设计人员对工作负载架构有深入了解。面对现有云计算场景下众多的复杂模型,这种方法的工作量过大,难度高。当一种新的模型出现时,重新建模的成本高,花费时间长。而现有的使用黑盒模型的方法在面对现有的众多的工作负载时推荐的准确率不足。现有模型对负载自身特征提取的不够充分,无法细致刻画负载对资源的需求,也没有充分利用配置能够提供的资源的信息,因此在大数据集上容易出现准确率低或搜索时间过长的问题。对于更加复杂的深度学习工作负载,现有的云配置推荐算法在推荐准确率和推荐算法运行开销上的表现并不好。
[0007]对大量结构复杂,运行时间长的深度学习工作负载使用传统方法进行特征分析十分困难且繁琐,因此,使用机器学习算法进行工作负载特征向量的提取成为了一个很好的选择。对带有时序性的深度学习工作负载资源使用数据,能够处理序列数据的循环神经网络成为了提取其特征向量的很好的选择。其中,长短期记忆神经网络(LSTM)已经在自然语言处理中证明了其处理序列数据时的有效性、可靠性和准确性。

技术实现思路

[0008]本专利技术要解决的技术问题是:克服现有技术的不足,提供一种基于负载特征分析的深度学习应用云配置推荐方法及系统,能够提取负载与配置的特征向量,进一步刻画负载与配置间的资源供需关系,以提升推荐的准确度,同时避免对具体模型进行结构分析,具有良好的可扩展性。
[0009]本专利技术的技术解决方案是:
[0010]一种基于负载特征分析的深度学习应用云配置推荐方法,包括以下步骤:
[0011]执行用户指定的工作负载;
[0012]收集工作负载运行时的资源使用数据;
[0013]使用能够处理时序数据的神经网络模型(如长短期记忆神经网络模型等)从工作负载运行时的资源使用数据中提取负载的特征向量;
[0014]根据工作负载的特征向量并结合虚拟机的配置信息,选取适合工作负载的配置;
[0015]根据选取的适合工作负载的配置,执行工作负载。
[0016]一种基于负载特征分析的深度学习应用云配置推荐系统,包括特征分析器,配置推荐器,工作负载执行器,负载运行数据收集器,可视化交互器五部分构成,其中:
[0017]特征分析器:为了提高黑盒模型的准确率,可以引入对负载特征的分析。由于代码自身执行时具有顺序,可以使用长短期记忆神经网络等能够处理时序数据的神经网络模型分析负载对资源需求的时序特征。使用长短期记忆神经网络分析负载在配置上的运行时资源使用情况,提取负载的特征向量,提高为负载进行配置推荐的算法的准确度。当用户提供一个自定义的工作负载时,特征分析器能够根据该负载在指定的标准负载上运行时的资源使用数据提取出该负载的特征向量。特征向量为一维向量,其长度为模型的超参数。
[0018]配置推荐器:根据用户提供的负载的特征向量,结合虚拟机的配置信息,选取适合该负载的配置。推荐配置的标准可以为以下几类。(1)成本最低,即执行工作负载需要的时间乘以虚拟机单位时间使用成本的积最低;(2)用时最少,即提供执行工作负载需要的时间最少的虚拟机。配置推荐器也会推荐排名前列的虚拟机,为用户提供更大的选择空间。
[0019]工作负载执行器:在Kubernetes中基于用户选择的配置创建pod(Kubernetes是一个可移植、可拓展的开源平台,用于容器化应用程序的自动化部署,扩展和管理,支持声明式配置文件),执行用户指定的工作负载。工作负载执行器也负责在标准虚拟机上运行用户自定义的负载,用于获取负载的运行时数据。对于耗时较短,不存在巨额耗时迭代过程的大数据任务,工作负载执行器会完整执行这个工作负载。对于现有的深度学习工作负载,其存在训练过程存在大量重复的任务,因此在提取负载的特征向量时,工作负载执行器只会执行若本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于负载特征分析的深度学习应用云配置推荐方法,其特征在于,包括以下步骤:执行用户指定的工作负载;收集工作负载运行时的资源使用数据;使用能够处理时序数据的神经网络模型从工作负载运行时的资源使用数据中提取负载的特征向量;根据工作负载的特征向量并结合虚拟机的配置信息,选取适合工作负载的配置;根据选取的适合工作负载的配置,执行工作负载。2.根据权利要求1所述的方法,其特征在于,所述执行用户指定的工作负载,包括:用户提交描述工作负载的YAML文件,标注为深度学习工作负载或大数据工作负载或其它工作负载类型;在YAML文件中添加标准配置信息,在Kubernetes集群中创建对应的pod,使工作负载运行在pod中。3.根据权利要求1或2所述的方法,其特征在于,所述收集负载运行时的资源使用数据,包括:将负载运行时的资源使用数据存储为矩阵H的形式,矩阵H的第i行第j列元素h
ij
表示在时间i采集到的指标j的数值。4.根据权利要求2所述的方法,其特征在于,所述根据工作负载的特征向量并结合虚拟机的配置信息,选取适合工作负载的配置,包括:根据负载的特征向量和配置的特征向量进行逻辑回归,得到配置预测值,再对各个配置预测值汇总排序,将配置依照推荐的优先级排序返回到前端界面,供用户根据返回的配置推荐结果选择合适的配置执行工作负载。5.根据权利要求4所述的方法,其特征在于,所述根据选取的适合工作负载的配置,执行工作负载,包括:根据用户选择的配置修改YAML文件中的配置信息,调用Kubernetes相应接口,删除之前创建的标准配置pod,重新创建选择的配置的pod。6.根据权利要求...

【专利技术属性】
技术研发人员:吴悦文吴恒张文博胡艺
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1