当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于深度学习的相似文本检索方法、装置及存储介质制造方法及图纸

技术编号:30637854 阅读:16 留言:0更新日期:2021-11-04 00:26
本发明专利技术公开了一种基于深度学习的相似文本检索方法,包括文本采集、数据预处理、候选关键词选取、Seq2Seq模型提取摘要、基于词向量的相似度计算以及基于摘要的相似度计算。本发明专利技术的有益效果如下:借助了生成摘要式生成模型Seq2Seq,该Seq2Seq模型利用其LSTM神经元分析上下文语境情感,生成更贴近于原文本意思相近的文本摘要,应用在系统之中用于上传的逐个文本与文本库内的所有文本进行相似度匹配计算,在运行速度上取得了显著的效果。在运行速度上取得了显著的效果。在运行速度上取得了显著的效果。

【技术实现步骤摘要】
一种基于深度学习的相似文本检索方法、装置及存储介质


[0001]本专利技术涉及数据处理
,具体涉及一种基于深度学习的相似文本检索方法、装置及存储介质。

技术介绍

[0002]在深度学习研究的逐步开展,以及海量文档待续处理的前提下,自然语言处理应运而生。当今时代快速发展,学科的文献和各个领域性文档极具参考价值,文档类型多样,并且文档数据既反应了一个领域在时间和空间上不断演变的过程,也能以此适当的推断出一些未来发展趋势。
[0003]计算机与信息科学、语言学、数学、电气与电子工程、人工智能与机器人以及心理学之间的交叉研究经常是自然语言处理研究的学科基础。在对某一领域进行研究时,其相关文献可帮助我们快速入手这一领域的研究学习。如今大量的文献以及相关机构发布的公文遍布于网络中,在获取网络资源获取文档及其数据时,资源的碎片化不利于全面了解研究。所以对于研究机构,其尽可能讲所需研究资料进行统一管理;对于发布公文机构,自己发布的以及上层领导单位发布的文件也需要一个统一的管理。在这个管理的过程中,重复的文本会给存储带来压力,并且在研究时也会因大量重复的文本浪费时间及人力。

技术实现思路

[0004]本专利技术的目的在于提供一种基于深度学习的相似文本检索方法、装置及存储介质,其可以解决
技术介绍
中涉及的技术问题。
[0005]本专利技术的技术方案为:一种基于深度学习的相似文本检索方法,该方法包括如下步骤:步骤一、文本采集,利用爬虫在目标网站的网页上爬取正文文本数据,并去除正文文本数据中的无用文本数据,得到目标文本数据;步骤二、数据预处理,具体包括如下步骤:分词和词性标注,采用Jieba分词工具对目标文本数据中的词语进行分词处理,并对分词处理后的词语进行词性标注;停用词过滤,去除分词处理后的目标文本数据中的停用词;步骤三、候选关键词选取,采用keyBERT值从数据预处理后的目标文本数据中选取候选关键词,并通过BERT模型对选取的候选关键词进行训练,得到对应的词向量,并执行步骤五;步骤四、通过Seq2Seq模型从目标文本数据中获取并生成文本摘要,并执行步骤六;步骤五、利用以下公式对得到的词向量做距离运算,得到距离值,根据得到的距离值得到对应的候选关键词的相似度:
其中,x、y分别是两个词向量,为两个词向量的夹角,为余弦值,为欧氏距离;步骤六、采用Simhash算法计算生成的文本摘要的指纹值,并将该指纹值与数据库内预存的其它文本的文本摘要指纹值进行匹配计算,当计算的值小于3时,判定为重复。
[0006]作为本专利技术的一种优选改进,在步骤一中,利用爬虫在目标网站的网页上爬取正文文本数据,具体包括如下步骤:步骤1.1、采集目标网站;步骤1.2、代码中存入相应的url地址;步骤1.3、进入该url地址获取正文文本数据,判断是否存在链接至其他新网页的相关url链接,若有,则执行步骤1.4;若无,则结束;步骤1.4、通过相关url链接进入一个新网页,并获取正文文本数据,判断是否存在链接至其他新网页的相关url链接,若有,则继续执行步骤1.4;若无,则结束。
[0007]作为本专利技术的一种优选改进,在步骤一中,去除正文文本数据中的无用文本数据具体包括如下步骤:对网页上的网页信息处理,去除标签、Javascript脚本以及样式脚本;对标签的正则表达式匹配;对网页的标签进行过滤处理。
[0008]作为本专利技术的一种优选改进,在步骤二中,使用停用词词典来查询去除停用词。
[0009]作为本专利技术的一种优选改进,在步骤二中,所述Jieba分词工具为Python版本的Jieba分词工具。
[0010]作为本专利技术的一种优选改进,在步骤四中,通过Seq2Seq模型从目标文本数据中获取并生成文本摘要具体包括如下步骤:Seq2Seq模型构建,在Encoder层,定义输入的tensor,同时对字母进行Embedding处理,再输入到RNN层;在Decoder端,对target数据进行处理,在构造Decoder时需要构造Embedding,构造Decoder层,构造输出层中的每个时间序列的RNN,训练Decoder,预测Decoder;Seq2Seq模型训练,在Encoder里定义一个双向的LSTM作为Encoder的部分,而Decoder由一个单向的LSTM和两个线性层构成,前向传播公式为:其中,为前向传播的值,即函数激活的值,为输入的文本向量,和是每一层的权重,和是每一层的偏置值;在Attention部分的计算公式为:
其中,为注意力值,即经过函数和函数依次激活的值,和是该部分的输入,和是注意力的第一权重,是注意力的偏置值,是注意力的第二权重;上述和关系又如下式,由于在训练过程中对batch的样本会padding,对于padding的输入需要把填充位置的attention权值过滤掉,然后对剩下位置的attention权值进行归一化处理,从而由文本得到文本向量:再使用ReduceState模块实现数据降维;最后生成文本摘要,采用Beam Search算法生成文本摘要。
[0011]本专利技术还提供了一种基于深度学习的相似文本检索装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述基于深度学习的相似文本检索方法。
[0012]本专利技术还提供了一种存储介质,存储有处理器可执行的指令,处理器执行所述处理器可执行的指令时执行所述基于深度学习的相似文本检索方法。
[0013]本专利技术的有益效果如下:借助了生成摘要式生成模型Seq2Seq,该Seq2Seq模型利用其LSTM神经元分析上下文语境情感,生成更贴近于原文本意思相近的文本摘要,应用在系统之中用于上传的逐个文本与文本库内的所有文本进行相似度匹配计算,在运行速度上取得了显著的效果。
附图说明
[0014]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:图1为本专利技术利用爬虫在目标网站的网页上爬取正文文本数据的流程图;图2为本专利技术去除正文文本数据中的无用文本数据的流程图;图3为本专利技术信访领域与兵工领域关键词概率图一;图4为本专利技术信访领域与兵工领域关键词概率图二;图5为本专利技术两算法P

R

F以及ROUGE值结果对比图一;图6为本专利技术两算法P

R

F以及ROUGE值结果对比图二;图7为本专利技术两算法计算所需时间结果对比图。
具体实施方式
[0015]下面将结合本专利技术实施例对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的相似文本检索方法,其特征在于,该方法包括如下步骤:步骤一、文本采集,利用爬虫在目标网站的网页上爬取正文文本数据,并去除正文文本数据中的无用文本数据,得到目标文本数据;步骤二、数据预处理,具体包括如下步骤:分词和词性标注,采用Jieba 分词工具对目标文本数据中的词语进行分词处理,并对分词处理后的词语进行词性标注;停用词过滤,去除分词处理后的目标文本数据中的停用词;步骤三、候选关键词选取,采用keyBERT 值从数据预处理后的目标文本数据中选取候选关键词,并通过BERT 模型对选取的候选关键词进行训练,得到对应的词向量,并执行步骤五;步骤四、通过Seq2Seq 模型从目标文本数据中获取并生成文本摘要,并执行步骤六;步骤五、利用以下公式对得到的词向量做距离运算,得到距离值,根据得到的距离值得到对应的候选关键词的相似度:其中,x、y 分别是两个词向量,

为两个词向量的夹角,sim X, Y 为余弦值,dist X, Y为欧氏距离;步骤六、采用Simhash 算法计算生成的文本摘要的指纹值,并将该指纹值与数据库内预存的其它文本的文本摘要指纹值进行匹配计算,当计算的值小于3 时,判定为重复。2.根据权利要求1 所述的一种基于深度学习的相似文本检索方法,其特征在于:在步骤一中,利用爬虫在目标网站的网页上爬取正文文本数据,具体包括如下步骤:步骤1.1、采集目标网站;步骤1.2、代码中存入相应的url 地址;步骤1.3、进入该url 地址获取正文文本数据,判断是否存在链接至其他新网页的相关url 链接,若有,则执行步骤1.4;若无,则结束;步骤1.4、通过相关url 链接进入一个新网页,并获取正文文本数据,判断是否存在链接至其他新网页的相关url 链接,若有,则继续执行步骤1.4;若无,则结束。3.根据权利要求1 所述的一种基于深度学习的相似文本检索方法,其特征在于:在步骤一中,去除正文文本数据中的无用文本数据具体包括如下步骤:对网页上的网页信息处理,去除标签、Javascript 脚本以及样式脚本;对标签的正则表达式匹配;对网页的标签进行过滤处理。4.根据权利要求1所述的一种基于深度学习的相似文本检索方法,其特征在于:在步骤二中,使用停用词词...

【专利技术属性】
技术研发人员:胡玉鹏李丹邓冠宇李宗营秦拯
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1