一种基于自主进化学习器的信息预测方法及系统技术方案

技术编号:26924031 阅读:28 留言:0更新日期:2021-01-01 22:48
本发明专利技术提供了一种基于自主进化学习器的信息预测方法及系统,基于自主训练方法,可以为模型找到其所需要的数据维度,以及有效的模型网络结构,自动完成各个模型训练,通过自主训练与遗传相结合的方法,加快模型各类参数寻优过程。本发明专利技术通过多模型训练的方式解决了信息挖掘中数据维度灾难的问题。

【技术实现步骤摘要】
一种基于自主进化学习器的信息预测方法及系统
本专利技术属于信息预测
,具体涉及一种基于自主进化学习器的信息预测方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。信息数据的有效提取和筛选对于信息推荐或预测领域来说尤为重要。但据专利技术人了解,目前互联网中的数据量大,且很多数据来自不同的领域,每个数据源又有很多数据属性,因此,这些数据的维度也是巨大的。面对过多的数据源,使用单一的学习器很难做到对信息准确的处理,如果采用人工方式进行信息预处理,则也是一个繁重工作,且对技术人员的专业能力要求高,可靠性也偏低。
技术实现思路
本专利技术为了解决上述问题,提出了一种基于自主进化学习器的信息预测方法及系统,本专利技术通过多模型训练的方式解决了信息挖掘中数据维度灾难的问题。根据一些实施例,本专利技术采用如下技术方案:一种基于自主进化学习器的信息预测方法,包括以下步骤:从数据源获取文本数据,并对文本数据进行向量表示与向量提取,确定热点词汇,对确定的热点词汇标注和关联,生成训练数据;构建神经网络模型,利用训练数据对神经网络模型进行训练;进入自主进化学习过程,删除预测不准确的词汇,增加目标领域词汇,并对于预测没有贡献的数据维度进行剪枝,更新训练数据;利用更新后的训练数据对模型进行训练,如果训练结果未达到设定条件,则重新进入自主进化学习过程,对训练数据进行更新,直到满足设定条件;基于相似领域聚类的群体交叉对遗传算法改进,利用改进的遗传算法生成新的神经网络模型,再次进入自主进化学习过程,直到满足设定条件;利用训练好的神经网络模型对获取的文本数据进行预测,有任一神经网络模型预测某一信息为热点词汇,则将其作为热点词汇,得到预测结果。作为可选择的实施方式,对文本数据进行向量表示与向量提取,确定热点词汇的具体过程包括:从数据源爬取相关文本数据,基于文本数据中词汇出现的频率、访问量和主题词,确定相应的词汇为热点词汇。作为可选择的实施方式,对确定的热点词汇标注和关联的具体过程包括:依据热点词汇出现的文本数据,标记该热点词汇所属
,并随机配置多个数据维度的数据进行关联。作为可选择的实施方式,构建神经网络模型的具体过程包括:构建多个深度神经网络结构,利用Vj=<Vr|r∈[0,Rj-1]>表示一个深度神经网络结构,其中Rj表示模型j的层数,Vr表示第r层的节点数量,Rj与Vr在一定范围内随机生成,r为整数,对每个模型进行编码,利用<Dj,Vj,Wj>表示模型j的编码,其中Dj是模型j训练时选用数据的维度,Vj则是其网络结构,Wj是其目标领域词汇集合。作为可选择的实施方式,所述自主进化学习过程包括:1)对于一个模型,在其测试数据中,删去预测误差超过设定值的词汇;2)对于预测误差小于预设值的词汇,为其生成新的目标领域词汇,生成的新词汇及其维度数据将参与模型的后续训练;3)对模型预测没有贡献的数据维度进行剪枝;4)对模型训练结果进行评价,如果训练结果满足设定条件则完成训练,无需进行遗传算法优化,否则利用遗传算法优化,生成新模型后返回至步骤1)。作为进一步的实施方式,生成新的目标领域词汇的具体过程包括:计算两个词汇的相关度,结合词汇的预测误差,计算一个词汇相对于领域词汇的相关系数,选取相关系数大于设定值的词汇添加进目标领域词汇集合。作为进一步的实施方式,对模型训练结果进行评价的具体过程包括:对一个模型评价使用平均误差指标与性能比指标,用s标识模型性能比指标,则t为模型训练时间,当模型的平均误差指标小于设定阈值,则模型标记为A类模型,不再进行优化,但其编码仍然作为基因库参与交叉遗传,A类模型对应的领域词汇在目标领域词汇集合中删除;当模型的平均误差指标大于设定阈值,且性能比指标在所有模型中排名为前设定比例,则将模型标记为B,B类模型将参与遗传优化,淘汰剩余的模型。作为可选择的实施方式,基于改进的遗传算法生成新的神经网络模型的具体过程包括:用Wj表示模型j的目标领域词汇集合,通过对各个模型的Wj聚类,获得k个聚类,每个聚类的模型编码,作为一组编码进行相互交叉;设<Dn,Vn,Wn〉为新的编码,Dn的计算方法为Dn=∪Dj|j∈Jc,其中Jc为通过聚类形成的一组编码,Vn的计算方法为Vn=Vj|sj最优,j∈Jc,其意义为Vn与具有模型性能比指标sj最优的模型结构相同,产生的新编码加入模型库;在模型中选取sj前设定比例的模型执行突变,设〈Dj,Vj,Wj〉为模型j的编码,Dj突变的方法是给Dj随机加入若干个数据维度,Vj突变的方法是其行数随机加1或者减1,每一行节点个数随机增减若干;Wj不执行突变。一种基于自主进化学习器的信息预测系统,包括:训练数据生成模块,被配置为从数据源获取文本数据,并对文本数据进行向量表示与向量提取,确定热点词汇,对确定的热点词汇标注和关联,生成训练数据;编码模块,被配置为构建神经网络模型;训练模块,被配置为利用训练数据对神经网络模型进行训练;自主进化学习模块,被配置为进入自主进化学习过程,删除预测不准确的词汇,增加目标领域词汇,并对于预测没有贡献的数据维度进行剪枝,更新训练数据;利用更新后的训练数据对模型进行训练,如果训练结果未达到设定条件,则重新对训练数据进行更新,直到满足设定条件;遗传模块,被配置为基于相似领域聚类的群体交叉对遗传算法改进,利用改进的遗传算法生成新的神经网络模型,再次进入自主进化学习过程,直到满足设定条件;预测模块,被配置为利用训练好的神经网络模型对获取的文本数据进行预测,有任一神经网络模型预测某一信息为热点词汇,则将其作为热点词汇,得到预测结果。一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于自主进化学习器的信息预测方法的步骤。一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于自主进化学习器的信息预测方法的步骤。与现有技术相比,本专利技术的有益效果为:本专利技术通过多模型训练的方式解决了研究热点挖掘中数据维度灾难的问题,基于自主训练方法,可以为模型找到其所需要的数据维度,以及有效的模型网络结构,自动完成各个模型训练,通过自主训练与遗传相结合的方法,加快模型各类参数寻优过程,适用于大规模数据源,能够对各领域的热点词汇进行准确预测。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。图1为基于自主进化学习器的研究热点预测框架图;图2为科研热点预测详细本文档来自技高网
...

【技术保护点】
1.一种基于自主进化学习器的信息预测方法,其特征是:包括以下步骤:/n从数据源获取文本数据,并对文本数据进行向量表示与向量提取,确定热点词汇,对确定的热点词汇标注和关联,生成训练数据;/n构建神经网络模型,利用训练数据对神经网络模型进行训练;/n进入自主进化学习过程,删除预测不准确的词汇,增加目标领域词汇,并对于预测没有贡献的数据维度进行剪枝,更新训练数据;/n利用更新后的训练数据对模型进行训练,如果训练结果未达到设定条件,则重新进入自主进化学习过程,对训练数据进行更新,直到满足设定条件;/n基于相似领域聚类的群体交叉对遗传算法改进,利用改进的遗传算法生成新的神经网络模型,再次进入自主进化学习过程,直到满足设定条件;/n利用训练好的神经网络模型对获取的文本数据进行预测,有任一神经网络模型预测某一信息为热点词汇,则将其作为热点词汇,得到预测结果。/n

【技术特征摘要】
1.一种基于自主进化学习器的信息预测方法,其特征是:包括以下步骤:
从数据源获取文本数据,并对文本数据进行向量表示与向量提取,确定热点词汇,对确定的热点词汇标注和关联,生成训练数据;
构建神经网络模型,利用训练数据对神经网络模型进行训练;
进入自主进化学习过程,删除预测不准确的词汇,增加目标领域词汇,并对于预测没有贡献的数据维度进行剪枝,更新训练数据;
利用更新后的训练数据对模型进行训练,如果训练结果未达到设定条件,则重新进入自主进化学习过程,对训练数据进行更新,直到满足设定条件;
基于相似领域聚类的群体交叉对遗传算法改进,利用改进的遗传算法生成新的神经网络模型,再次进入自主进化学习过程,直到满足设定条件;
利用训练好的神经网络模型对获取的文本数据进行预测,有任一神经网络模型预测某一信息为热点词汇,则将其作为热点词汇,得到预测结果。


2.如权利要求1所述的一种基于自主进化学习器的信息预测方法,其特征是:对确定的热点词汇标注和关联的具体过程包括:依据热点词汇出现的文本数据,标记该热点词汇所属技术领域,并随机配置多个数据维度的数据进行关联。


3.如权利要求1所述的一种基于自主进化学习器的信息预测方法,其特征是:构建神经网络模型的具体过程包括:构建多个深度神经网络结构,利用Vj=<Vr|r∈[0,Rj-1]>表示一个深度神经网络结构,其中Rj表示模型j的层数,Vr表示第r层的节点数量,Rj与Vr在一定范围内随机生成,r为整数,对每个模型进行编码,利用<Dj,Vj,Wj〉表示模型j的编码,其中Dj是模型j训练时选用数据的维度,Vj则是其网络结构,Wj是其目标领域词汇集合。


4.如权利要求1所述的一种基于自主进化学习器的信息预测方法,其特征是:所述自主进化学习过程包括:
1)对于一个模型,在其测试数据中,删去预测误差超过设定值的词汇;
2)对于预测误差小于预设值的词汇,为其生成新的目标领域词汇,生成的新词汇及其维度数据将参与模型的后续训练;
3)对模型预测没有贡献的数据维度进行剪枝;
4)对模型训练结果进行评价,如果训练结果满足设定条件则完成训练,无需进行遗传算法优化,否则利用遗传算法优化,生成新模型后返回至步骤1)。


5.如权利要求4所述的一种基于自主进化学习器的信息预测方法,其特征是:生成新的目标领域词汇的具体过程包括:计算两个词汇的相关度,结合词汇的预测误差,计算一个词汇相对于领域词汇的相关系数,选取相关系数大于设定值的词汇添加进目标领域词汇集合。


6.如权利要求1所述的一种基于自主进化学习器的信息预测方法,其特征是:对模型训练结果进行评价的具体过程包括:对一个模型评价使用平均误差指标与性能比指标,用...

【专利技术属性】
技术研发人员:马艳邹立达韩英昆齐达立马雷陈玉峰
申请(专利权)人:山东电力研究院国网山东省电力公司电力科学研究院国家电网有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1