System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理的领域,尤其涉及基于余弦相似度的修改内容识别方法、系统、设备及介质。
技术介绍
1、自然语言处理中,计算机接受用户以自然语言形式输入,并在内部通过人类所定义的算法进行处理,以模拟人类对自然语言的理解,并返回用户所期望的结果。其目的在于用计算机代替人工来处理大规模的自然语言信息。而随着深度学习技术的快速发展,大幅提升了对众多自然语言处理任务(比如文本分类,机器翻译等)的工作能力,越来越多的深度学习模型被用于现实生活中。但是深度学习模型本质上的黑箱属性,也为实际应用带来了潜在的风险。
2、在训练和使用的过程中,由于异常情况的产生,文本和内容的修改变得越来越普遍和常见,自然语言处理的应用比如文本分类、情感分类、问答系统、推荐系统等也都会受到了文本修改的影响。
3、而对修改后的文本无法确定是否直观的改变了原始文本的意思,面对不改变原始文本含义的、仅修改了部分无关词语的修改文本,没有必要进行大量的追踪比较和识别,对实际的工作中并不会产生异常影响,但是面对发生了轻微改动而直接影响了原始文本的含义,使其产生了巨大变化的修改文本,需要进行及时的提醒和确认是否异常,而面对这些修改文本的修改状态进行比较的过程充满了随机和挑战,需要人始终参与对文本的检查,给进行自然语言处理的工作人员带来了极大的工作量,降低了工作效率。
技术实现思路
1、有鉴于此,本专利技术提出了基于余弦相似度的修改内容识别方法、系统、设备及介质,实现对文本或内容的修改进行准确的识别,方法简
2、基于上述目的,本专利技术实施例的一方面提供了基于余弦相似度的修改内容识别方法、系统、设备及介质,具体包括如下步骤:
3、本专利技术提出了基于余弦相似度的修改内容识别方法,包括,
4、获取修改内容和原始内容,对修改内容和原始内容进行预处理,将预处理后的修改内容和原始内容分别转化为修改内容向量与原始内容向量;
5、通过余弦相似度算法计算修改内容向量与原始内容向量之间的相似度;
6、响应于相似度超出预设的相似度阈值,则产生存在修改内容的结果并返回。
7、在一些实施例中,所述获取修改内容和原始内容,对修改内容和原始内容进行预处理的步骤包括:
8、将修改内容和原始内容都进行分词处理,得到以词语为单位的分词结果,并根据分词结果构建初始词典,并将所述初始词典转化为训练词典。
9、在一些实施例中,将所述初始词典转化为训练词典包括:
10、提取修改内容和原始内容的结构信息,作为第一特征附加到初始词典中;
11、对修改内容和原始内容进行词对应的n-gram提取,得到词组成分,作为第二特征附加到初始词典中;
12、获取外部知识并附加到初始词典中;
13、经过多层次处理,以将所述初始词典转换成为训练词典。
14、在一些实施例中,所述将预处理后的修改内容和原始内容分别转化为修改内容向量与原始内容向量的步骤包括:
15、计算训练词典中的每一个词语出现的频次,得到词语频次;
16、根据词语频次构建向量表示。
17、在一些实施例中,所述通过余弦相似度算法计算修改内容向量与原始内容向量之间的相似度的步骤包括:
18、根据修改内容向量与原始内容向量中的词语频次为词语分配权重;
19、使用余弦相似度算法对分配权重之后的修改内容向量与原始内容向量计算相似度。
20、在一些实施例中,所述根据修改内容向量与原始内容向量中的词语频次为词语分配权重的步骤包括:
21、响应于词语频次低于预设阈值,则词语频次越大,分配的权重越大;
22、响应于词语频次超过预设阈值,则词语频次越大,分配的权重越小。
23、在一些实施例中,所述响应于相似度超出预设的相似度阈值,则产生存在修改内容的结果并返回的步骤包括:
24、计算修改内容中的相似度超出预设的相似度阈值的文本数据;
25、将所述文本数据中的相似度结果和分配的权重进行加权,得到加权值;
26、对所有的加权值求和,得到变化值并与预设值比较;
27、响应于变化值超出预设值,则产生存在修改内容的结果并返回。
28、本专利技术提出了种基于余弦相似度算法的修改内容识别系统,包括:
29、预处理单元,配置为获取修改内容和原始内容,对修改内容和原始内容进行预处理,将预处理后的修改内容和原始内容分别转化为修改内容向量与原始内容向量;
30、相似度单元,配置为通过余弦相似度算法计算修改内容向量与原始内容向量之间的相似度;
31、比较单元,配置为响应于相似度超出预设的相似度阈值,则产生存在修改内容的结果并返回。
32、本专利技术提出了一种计算机设备,包括:
33、至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时执行所述基于余弦相似度的修改内容识别方法的步骤。
34、本专利技术提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行所述基于余弦相似度的修改内容识别方法的步骤。
35、本专利技术至少具有以下有益技术效果:
36、本专利技术提出了基于余弦相似度的修改内容识别方法、系统、设备及介质,方法包括:获取修改内容和原始内容,对修改内容和原始内容进行预处理,将预处理后的修改内容和原始内容分别转化为修改内容向量与原始内容向量;通过余弦相似度算法计算修改内容向量与原始内容向量之间的相似度;响应于相似度超出预设的相似度阈值,则产生存在修改内容的结果并返回。本专利技术通过对字典结构的查找及对比方式并赋权的方式,来判断修改变化的重要程度,可以提高对比效率,并实现文本之间的充分、准确的对比,基于余弦相似度的计算方法对文本或内容的修改进行准确的识别,简单易懂,易于实现和理解。通过设定合适的相似度阈值,可以实现对修改内容的准确识别,适用于各种文本和内容比较场景,可应用于多个领域,适用范围广。
本文档来自技高网...【技术保护点】
1.基于余弦相似度的修改内容识别方法,其特征在于,包括,
2.根据权利要求1所述的基于余弦相似度的修改内容识别方法,其特征在于,所述获取修改内容和原始内容,对所述修改内容和原始内容进行预处理的步骤包括:
3.根据权利要求2所述的基于余弦相似度的修改内容识别方法,其特征在于,所述将所述初始词典转化为训练词典包括:
4.根据权利要求3所述的基于余弦相似度的修改内容识别方法,其特征在于,所述将预处理后的所述修改内容和原始内容分别转化为修改内容向量与原始内容向量的步骤包括:
5.根据权利要求4所述的基于余弦相似度的修改内容识别方法,其特征在于,所述通过余弦相似度算法计算修改内容向量与原始内容向量之间的相似度的步骤包括:
6.根据权利要求5所述的基于余弦相似度的修改内容识别方法,其特征在于,所述根据所述修改内容向量与原始内容向量中的词语频次为词语分配权重的步骤包括:
7.根据权利要求6所述的基于余弦相似度的修改内容识别方法,其特征在于,所述响应于所述相似度超出预设的相似度阈值,则产生存在修改内容的结果并返回的步骤包括:
8.基于余弦相似度的修改内容识别系统,其特征在于,包括:
9.一种计算机设备,包括:
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1至7任一项所述基于余弦相似度的修改内容识别方法的步骤。
...【技术特征摘要】
1.基于余弦相似度的修改内容识别方法,其特征在于,包括,
2.根据权利要求1所述的基于余弦相似度的修改内容识别方法,其特征在于,所述获取修改内容和原始内容,对所述修改内容和原始内容进行预处理的步骤包括:
3.根据权利要求2所述的基于余弦相似度的修改内容识别方法,其特征在于,所述将所述初始词典转化为训练词典包括:
4.根据权利要求3所述的基于余弦相似度的修改内容识别方法,其特征在于,所述将预处理后的所述修改内容和原始内容分别转化为修改内容向量与原始内容向量的步骤包括:
5.根据权利要求4所述的基于余弦相似度的修改内容识别方法,其特征在于,所述通过余弦相似度算法计算修改内容向量与原始内容向量之间的相...
【专利技术属性】
技术研发人员:范俊国,马士中,徐同明,王金丽,任聪,
申请(专利权)人:浪潮通用软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。