System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种流式机器学习系统吞吐率优化方法,尤其涉及一种面向大数据流式机器学习系统的吞吐率优化方法及系统,属于计算机软件。
技术介绍
1、机器学习是人工智能的主要实现方式,通过机器学习技术,人工智能在民生、医疗、教育、金融等领域实现了技术落地,推动了多个行业的深刻变革。在应用机器学习算法时,传统方式会利用全量数据训练一个最优的算法模型,然后使用该模型进行在线预测,这种方式称为批式机器学习。当前,随着数字电网等场景的日益普及,边缘侧物联网传感器规模急剧增加,流式数据成为了大数据的重要形态。流式机器学习通过对算法模型进行增量、实时的更新,能够适应无穷、动态的流式数据,已被应用于数字电网场景中的传感器数据监测、实时数据分析处理等场景。为了支撑流式机器学习应用,快速流式机器学习任务,涌现出了flink ml、alink、river等一系列较为成熟的流式机器学习系统。
2、在大数据背景下,流式数据具有高速和动态变化的特点。为应对高速流式数据,流式机器学习系统必需具有较高的吞吐率,以及时处理到来的数据,使得机器学习算法模型能够从最新的数据中学习到知识。另一方面,流式数据动态变化的特点体现在其流速会随着上游业务的变化而改变。但在硬件条件固定的环境下,流式机器学习系统的吞吐率上限是固定的,当流式数据的流速变化超出该上限,系统中将产生严重的数据积压,导致机器学习算法模型无法从最新的数据中学得知识,算法模型不再具有实时性。
3、现有的流式机器学习系统吞吐率优化方法主要从算子和硬件资源角度进行优化。一是对系统中各类算子的
4、综上,现有的流式机器学习系统吞吐率优化方法主要集中在对系统内部算子进行优化或者从外部对系统可用硬件资源进行扩缩容,尚缺乏在硬件资源固定的条件下动态实现流速匹配以提升流式机器学习系统整体吞吐率的优化方法。
技术实现思路
1、针对现有技术中存在的问题,本专利技术的目的在于提供一种面向大数据流式机器学习的吞吐率优化方法及系统,能够动态调整数据流速以匹配系统处理能力,实现吞吐率优化。
2、本专利技术的技术解决方案:
3、一种面向大数据流式机器学习的吞吐率优化方法,其步骤包括:
4、1)在计算节点启动数据采样模块、流速监测模块,在管理节点启动参数优化模块和采样控制模块;
5、2)采样控制模块确定初始采样率并设置流速汇报时间间隔;
6、3)参数优化模块获取数据源提供的流式数据的数据类型并选取一数据采样策略;然后根据所述初始采样率确定所述数据采样策略中的初始参数,将所述数据采样策略及其参数发送给数据采样模块;
7、4)采样控制模块通知各计算节点上的流式机器学习系统开始执行流式机器学习任务;
8、5)数据采样模块根据当前数据采样策略及其参数对当前接收的数据源产生的每批流式数据进行采样,并将采样结果发送给流式机器学习系统供流式机器学习任务进行模型训练;
9、6)在流式机器学习任务开始执行后,流速监测模块持续监测所述数据源的流速和模型训练吞吐率;然后按照设置的流速汇报时间间隔将所述流速和所述模型训练吞吐率按照发送给采样控制模块、将所述模型训练吞吐率发送给参数优化模块;
10、7)采样控制模块根据所述数据源的流速及所述模型训练吞吐率,计算出新的采样率并将其发送给参数优化模块;
11、8)参数优化模块根据新的采样率、模型训练吞吐率,优化当前数据采样策略的参数设置或选择新的数据采样策略并将处理结果发送给数据采样模块;
12、9)数据采样模块根据步骤8)的处理结果对当前接收的数据源产生的每批流式数据进行采样;
13、10)流式机器学习任务运行过程中,持续执行步骤5)~步骤9),以优化所述模型训练吞吐率。
14、进一步的,所述采样控制模块获取模型训练吞吐率t和数据源的流速s,计算出新的采样率r=t/s*alpha;然后向数据采样模块发送新的采样率r,所述数据采样模块根据新的采样率r对当前接收的数据源产生的每批流式数据进行采样;其中,alpha用于匹配输入输出流速。
15、进一步的,选取alpha=0.95。
16、进一步的,所述数据采样策略库中包含随机采样策略,其采样方法为:对于流式数据中的每一数据样本,生成一个在[0,1]间均匀分布的随机数n;如果随机数n小于设定的最大采样比例e,则选中该数据样本;如果随机数n大于或等于设定的最大采样比例e,则丢弃该数据样本。
17、进一步的,所述数据采样策略库中包含基于距离的核心集采样策略,其采样方法为:
18、3.1)从流式数据中读取出一批数据,初始化核心集s为空;
19、3.2)计算该批数据中各样本之间的欧氏距离,并存储为一个矩阵,用于后续访问;
20、3.3)依次遍历该批样本数据,对于其中的数据样本x,首先将其加入核心集s中,然后计算核心集s外该批样本数据中的所有样本到核心集s中样本的最近距离之和d,然后将该数据样本x从核心集s中移除;
21、3.4)将遍历过程中,出现的最小的d所对应的数据样本加入核心集s中;
22、3.5)重复步骤3.3)和步骤3.4),直至核心集s中的数据量达到设定的最大数据量n。
23、进一步的,对所述数据采样策略库中的采样策略进行扩展,其方法为:生成新采样策略,包含采样逻辑和参数、采样模式、可接受数据类型;其中,采样逻辑为具体应用到数据上的采样策略,参数为采样逻辑中的具体控制参数,采样模式包含流式和微批式。
24、一种面向大数据流式机器学习的吞吐率优化系统,其特征在于,包括部署于计算节点上的数据采样策略库、流速监测模块和采样控制模块,以及部署于管理节点上的参数优化模块和数据采样模块;
25、数据采样策略库,用于存储数据采样策略;
26、参数优化模块,用于获取数据源提供的流式数据的数据类型并选取一数据采样策略;然后根据所述初始采样率确定所述数据采样策略中的初始参数,将所述数据采样策略及其参数发送给数据采样模块;以及根据新的采样率、模型训练吞吐率,优化当前数据采样策略的参数设置或选择新的数据采样策略并将处理结果发送给数据采样模块;
27、采样控制模块,用于确定初始采样率并设置流速汇报时间间隔,通知各计算节点上的流式机器学习系统开始执行流式机器学习任务,以及根据数据源的流速及模型训练吞吐率,计算出新的采样率并将其发送给参数优化模块;
...【技术保护点】
1.一种面向大数据流式机器学习的吞吐率优化方法,其步骤包括:
2.根据权利要求1所述的方法,其特征在于,所述采样控制模块获取模型训练吞吐率T和数据源的流速S,计算出新的采样率r=T/S*alpha;然后向数据采样模块发送新的采样率r,所述数据采样模块根据新的采样率r对当前接收的数据源产生的每批流式数据进行采样;
3.根据权利要求2所述的方法,其特征在于,选取alpha=0.95。
4.根据权利要求1或2或3所述的方法,其特征在于,所述数据采样策略库中包含随机采样策略,其采样方法为:对于流式数据中的每一数据样本,生成一个在[0,1]间均匀分布的随机数n;如果随机数n小于设定的最大采样比例e,则选中该数据样本;如果随机数n大于或等于设定的最大采样比例e,则丢弃该数据样本。
5.根据权利要求1或2或3所述的方法,其特征在于,所述数据采样策略库中包含基于距离的核心集采样策略,其采样方法为:
6.根据权利要求1所述的方法,其特征在于,对所述数据采样策略库中的采样策略进行扩展,其方法为:生成新采样策略,包含采样逻辑和参数、采样模式、
7.一种面向大数据流式机器学习的吞吐率优化系统,其特征在于,包括部署于计算节点上的数据采样策略库、流速监测模块和采样控制模块,以及部署于管理节点上的参数优化模块和数据采样模块;
...【技术特征摘要】
1.一种面向大数据流式机器学习的吞吐率优化方法,其步骤包括:
2.根据权利要求1所述的方法,其特征在于,所述采样控制模块获取模型训练吞吐率t和数据源的流速s,计算出新的采样率r=t/s*alpha;然后向数据采样模块发送新的采样率r,所述数据采样模块根据新的采样率r对当前接收的数据源产生的每批流式数据进行采样;
3.根据权利要求2所述的方法,其特征在于,选取alpha=0.95。
4.根据权利要求1或2或3所述的方法,其特征在于,所述数据采样策略库中包含随机采样策略,其采样方法为:对于流式数据中的每一数据样本,生成一个在[0,1]间均匀分布的随机数n;如果随机数n小于设定的最大采样比例e,则选中该数据样本;如...
【专利技术属性】
技术研发人员:梁哲恒,崔磊,沈伍强,姚潮生,张金波,张小陆,曾纪钧,沈桂泉,梁盈威,龙震岳,李凯,周昉昉,伍江瑶,毕胜,陆宏治,王嘉延,张雨,赖单宏,李永健,刘均乐,张春梅,丁锋,唐震,吴铭钞,
申请(专利权)人:广东电网有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。