【技术实现步骤摘要】
一种基于自主进化学习器的信息预测方法及系统
本专利技术属于信息预测
,具体涉及一种基于自主进化学习器的信息预测方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。信息数据的有效提取和筛选对于信息推荐或预测领域来说尤为重要。但据专利技术人了解,目前互联网中的数据量大,且很多数据来自不同的领域,每个数据源又有很多数据属性,因此,这些数据的维度也是巨大的。面对过多的数据源,使用单一的学习器很难做到对信息准确的处理,如果采用人工方式进行信息预处理,则也是一个繁重工作,且对技术人员的专业能力要求高,可靠性也偏低。
技术实现思路
本专利技术为了解决上述问题,提出了一种基于自主进化学习器的信息预测方法及系统,本专利技术通过多模型训练的方式解决了信息挖掘中数据维度灾难的问题。根据一些实施例,本专利技术采用如下技术方案:一种基于自主进化学习器的信息预测方法,包括以下步骤:从数据源获取文本数据,并对文本数据进行向量表示与向量提取,确定热点词汇,对确定的热点词汇标注和关联,生成训练数据;构建神经网络模型,利用训练数据对神经网络模型进行训练;进入自主进化学习过程,删除预测不准确的词汇,增加目标领域词汇,并对于预测没有贡献的数据维度进行剪枝,更新训练数据;利用更新后的训练数据对模型进行训练,如果训练结果未达到设定条件,则重新进入自主进化学习过程,对训练数据进行更新,直到满足设定条件;基于相似领域聚类的群体交 ...
【技术保护点】
1.一种基于自主进化学习器的信息预测方法,其特征是:包括以下步骤:/n从数据源获取文本数据,并对文本数据进行向量表示与向量提取,确定热点词汇,对确定的热点词汇标注和关联,生成训练数据;/n构建神经网络模型,利用训练数据对神经网络模型进行训练;/n进入自主进化学习过程,删除预测不准确的词汇,增加目标领域词汇,并对于预测没有贡献的数据维度进行剪枝,更新训练数据;/n利用更新后的训练数据对模型进行训练,如果训练结果未达到设定条件,则重新进入自主进化学习过程,对训练数据进行更新,直到满足设定条件;/n基于相似领域聚类的群体交叉对遗传算法改进,利用改进的遗传算法生成新的神经网络模型,再次进入自主进化学习过程,直到满足设定条件;/n利用训练好的神经网络模型对获取的文本数据进行预测,有任一神经网络模型预测某一信息为热点词汇,则将其作为热点词汇,得到预测结果。/n
【技术特征摘要】
1.一种基于自主进化学习器的信息预测方法,其特征是:包括以下步骤:
从数据源获取文本数据,并对文本数据进行向量表示与向量提取,确定热点词汇,对确定的热点词汇标注和关联,生成训练数据;
构建神经网络模型,利用训练数据对神经网络模型进行训练;
进入自主进化学习过程,删除预测不准确的词汇,增加目标领域词汇,并对于预测没有贡献的数据维度进行剪枝,更新训练数据;
利用更新后的训练数据对模型进行训练,如果训练结果未达到设定条件,则重新进入自主进化学习过程,对训练数据进行更新,直到满足设定条件;
基于相似领域聚类的群体交叉对遗传算法改进,利用改进的遗传算法生成新的神经网络模型,再次进入自主进化学习过程,直到满足设定条件;
利用训练好的神经网络模型对获取的文本数据进行预测,有任一神经网络模型预测某一信息为热点词汇,则将其作为热点词汇,得到预测结果。
2.如权利要求1所述的一种基于自主进化学习器的信息预测方法,其特征是:对确定的热点词汇标注和关联的具体过程包括:依据热点词汇出现的文本数据,标记该热点词汇所属技术领域,并随机配置多个数据维度的数据进行关联。
3.如权利要求1所述的一种基于自主进化学习器的信息预测方法,其特征是:构建神经网络模型的具体过程包括:构建多个深度神经网络结构,利用Vj=<Vr|r∈[0,Rj-1]>表示一个深度神经网络结构,其中Rj表示模型j的层数,Vr表示第r层的节点数量,Rj与Vr在一定范围内随机生成,r为整数,对每个模型进行编码,利用<Dj,Vj,Wj〉表示模型j的编码,其中Dj是模型j训练时选用数据的维度,Vj则是其网络结构,Wj是其目标领域词汇集合。
4.如权利要求1所述的一种基于自主进化学习器的信息预测方法,其特征是:所述自主进化学习过程包括:
1)对于一个模型,在其测试数据中,删去预测误差超过设定值的词汇;
2)对于预测误差小于预设值的词汇,为其生成新的目标领域词汇,生成的新词汇及其维度数据将参与模型的后续训练;
3)对模型预测没有贡献的数据维度进行剪枝;
4)对模型训练结果进行评价,如果训练结果满足设定条件则完成训练,无需进行遗传算法优化,否则利用遗传算法优化,生成新模型后返回至步骤1)。
5.如权利要求4所述的一种基于自主进化学习器的信息预测方法,其特征是:生成新的目标领域词汇的具体过程包括:计算两个词汇的相关度,结合词汇的预测误差,计算一个词汇相对于领域词汇的相关系数,选取相关系数大于设定值的词汇添加进目标领域词汇集合。
6.如权利要求1所述的一种基于自主进化学习器的信息预测方法,其特征是:对模型训练结果进行评价的具体过程包括:对一个模型评价使用平均误差指标与性能比指标,用...
【专利技术属性】
技术研发人员:马艳,邹立达,韩英昆,齐达立,马雷,陈玉峰,
申请(专利权)人:山东电力研究院,国网山东省电力公司电力科学研究院,国家电网有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。