一种基于深度学习的相似文本检索方法、装置及存储介质制造方法及图纸

技术编号：30637854 阅读：16 留言：0更新日期：2021-11-04 00:26

本发明专利技术公开了一种基于深度学习的相似文本检索方法，包括文本采集、数据预处理、候选关键词选取、Seq2Seq模型提取摘要、基于词向量的相似度计算以及基于摘要的相似度计算。本发明专利技术的有益效果如下：借助了生成摘要式生成模型Seq2Seq，该Seq2Seq模型利用其LSTM神经元分析上下文语境情感，生成更贴近于原文本意思相近的文本摘要，应用在系统之中用于上传的逐个文本与文本库内的所有文本进行相似度匹配计算，在运行速度上取得了显著的效果。在运行速度上取得了显著的效果。在运行速度上取得了显著的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的相似文本检索方法、装置及存储介质

[0001]本专利技术涉及数据处理
，具体涉及一种基于深度学习的相似文本检索方法、装置及存储介质。

技术介绍

[0002]在深度学习研究的逐步开展，以及海量文档待续处理的前提下，自然语言处理应运而生。当今时代快速发展，学科的文献和各个领域性文档极具参考价值，文档类型多样，并且文档数据既反应了一个领域在时间和空间上不断演变的过程，也能以此适当的推断出一些未来发展趋势。
[0003]计算机与信息科学、语言学、数学、电气与电子工程、人工智能与机器人以及心理学之间的交叉研究经常是自然语言处理研究的学科基础。在对某一领域进行研究时，其相关文献可帮助我们快速入手这一领域的研究学习。如今大量的文献以及相关机构发布的公文遍布于网络中，在获取网络资源获取文档及其数据时，资源的碎片化不利于全面了解研究。所以对于研究机构，其尽可能讲所需研究资料进行统一管理；对于发布公文机构，自己发布的以及上层领导单位发布的文件也需要一个统一的管理。在这个管理的过程中，重复的文本会给存储带来压力，并且在研究时也会因大量重复的文本浪费时间及人力。

技术实现思路

[0004]本专利技术的目的在于提供一种基于深度学习的相似文本检索方法、装置及存储介质，其可以解决
技术介绍
中涉及的技术问题。
[0005]本专利技术的技术方案为：一种基于深度学习的相似文本检索方法，该方法包括如下步骤：步骤一、文本采集，利用爬虫在目标网站的网页上爬取正文文本数据，并去除正文文本数据中的无用文本数据...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的相似文本检索方法，其特征在于，该方法包括如下步骤：步骤一、文本采集，利用爬虫在目标网站的网页上爬取正文文本数据，并去除正文文本数据中的无用文本数据，得到目标文本数据；步骤二、数据预处理，具体包括如下步骤：分词和词性标注，采用Jieba 分词工具对目标文本数据中的词语进行分词处理，并对分词处理后的词语进行词性标注；停用词过滤，去除分词处理后的目标文本数据中的停用词；步骤三、候选关键词选取，采用keyBERT 值从数据预处理后的目标文本数据中选取候选关键词，并通过BERT 模型对选取的候选关键词进行训练，得到对应的词向量，并执行步骤五；步骤四、通过Seq2Seq 模型从目标文本数据中获取并生成文本摘要，并执行步骤六；步骤五、利用以下公式对得到的词向量做距离运算，得到距离值，根据得到的距离值得到对应的候选关键词的相似度：其中，x、y 分别是两个词向量，
휃
为两个词向量的夹角，sim X, Y 为余弦值，dist X, Y为欧氏距离；步骤六、采用Simhash 算法计算生成的文本摘要的指纹值，并将该指纹值与数据库内预存的其它文本的文本摘要指纹值进行匹配计算，当计算的值小于3 时，判定为重复。2.根据权利要求1 所述的一种基于深度学习的相似文本检索方法，其特征在于：在步骤一中，利用爬虫在目标网站的网页上爬取正文文本数据，具体包括如下步骤：步骤1.1、采集目标网站；步骤1.2、代码中存入相应的url 地址；步骤1.3、进入该url 地址获取正文文本数据，判断是否存在链接至其他新网页的相关url 链接，若有，则执行步骤1.4；若无，则结束；步骤1.4、通过相关url 链接进入一个新网页，并获取正文文本数据，判断是否存在链接至其他新网页的相关url 链接，若有，则继续执行步骤1.4；若无，则结束。3.根据权利要求1 所述的一种基于深度学习的相似文本检索方法，其特征在于：在步骤一中，去除正文文本数据中的无用文本数据具体包括如下步骤：对网页上的网页信息处理，去除标签、Javascript 脚本以及样式脚本；对标签的正则表达式匹配；对网页的标签进行过滤处理。4.根据权利要求1所述的一种基于深度学习的相似文本检索方法，其特征在于：在步骤二中，使用停用词词...

【专利技术属性】
技术研发人员：胡玉鹏，李丹，邓冠宇，李宗营，秦拯，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人