文本相似度检测方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:37766787 阅读:15 留言:0更新日期:2023-06-06 13:27
本发明专利技术提供的文本相似度检测方法、装置、计算机设备及可读存储介质,方法包括:获取待检测文本,并对待检测文本进行分词,得到词序列;根据版权文本对应的词位置信息表,从词序列中,确定位于词位置信息表中,且在词序列中的序列顺序与在词位置信息表中的序列顺序匹配的连续目标词;统计版权文本、待检测文本以及连续目标词各自的词总数,并计算版权文本与连续目标词的词总数之差,以及连续目标词与待检测文本的词总数比值;将词总数之差输入预设函数中得到相似度评估权重,并将相似度评估权重与词总数比值之间的乘积作为待检测文本与版权文本之间的相似度。本发明专利技术适用于长文本相似度检测场景,提高了检测效率和准确度。提高了检测效率和准确度。提高了检测效率和准确度。

【技术实现步骤摘要】
文本相似度检测方法、装置、计算机设备及可读存储介质


[0001]本专利技术涉及计算机
,具体而言,涉及一种文本相似度检测方法、装置、计算机设备及可读存储介质。

技术介绍

[0002]用户在音频平台上可以上传的自己录制的音频,比如对小说进行有声书演绎,这些被上传的音频可能并没有获取版权,从而出现侵权风险,为了解决版权侵权问题,需要对用户上传声音进行在线审核,判断上传的声音是否有版权。
[0003]目前,检测音频是否有版权的方式是:先将用户上传声音进行语音识别,得到待审核文本,再检测待审核文本和版权文本库中的版权文本之间的相似度,确定其是否侵权。
[0004]然而,在检测文本相似度的过程中,现有方式会由于语音识别会存在识别文字错误或者断句错误,导致相似度检测准确性低,可能出现同一个待审核文本与多个版权文本之间的相似度无法区分的现象;另外现有检测方式无法快速确定长文本之间的相似度,导致长文本检测效率低。

技术实现思路

[0005]本专利技术的目的之一在于提供一种文本相似度检测方法、装置、计算机设备及可读存储介质,用以提高长文本检测效率和准确性,本专利技术技术方案可以根据如下实现:
[0006]第一方面,本专利技术提供一种文本相似度检测方法,所述方法包括:
[0007]获取待检测文本,并对所述待检测文本进行分词,得到词序列;
[0008]根据版权文本对应的词位置信息表,从所述词序列中,确定位于所述词位置信息表中,且在所述词序列中的序列顺序与在所述词位置信息表中的序列顺序匹配的连续目标词;所述连续目标词与所述版权文本匹配;
[0009]统计所述版权文本、所述待检测文本以及所述连续目标词各自的词总数,并计算所述版权文本与所述连续目标词的词总数之差,以及所述连续目标词与所述待检测文本的词总数比值;
[0010]将所述词总数之差输入预设函数中得到相似度评估权重,并将所述相似度评估权重与所述词总数比值之间的乘积作为所述待检测文本与所述版权文本之间的相似度;所述相似度用于确定所述待检测文本是否属于版权文本。
[0011]第二方面,本专利技术提供一种文本相似度检测装置,包括:获取模块,确定模块和检测模块;
[0012]所述获取模块,用于获取待检测文本,并对所述待检测文本进行分词,得到词序列;
[0013]所述确定模块,用于根据版权文本对应的词位置信息表,从所述词序列中,确定位于所述词位置信息表中,且在所述词序列中的序列顺序与在所述词位置信息表中的序列顺序匹配的连续目标词;所述连续目标词与所述版权文本匹配;
[0014]所述确定模块,还用于统计所述版权文本、所述待检测文本以及所述连续目标词各自的词总数,并计算所述版权文本与所述连续目标词的词总数之差,以及所述连续目标词与所述待检测文本的词总数比值;
[0015]所述检测模块,用于将所述词总数之差带入预设函数中得到相似度评估权重,并将所述相似度评估权重与所述词总数比值之间的乘积作为所述待检测文本与所述版权文本之间的相似度;所述相似度用于确定所述待检测文本是否属于版权文本。
[0016]第三方面,本专利技术提供一种计算机设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现如第一方面所述的文本相似度检测方法。
[0017]第四方面,本专利技术提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本相似度检测方法。
[0018]本专利技术提供的一种文本相似度检测方法、装置、计算机设备及可读存储介质,首先对待检测文本进行分词,得到词序列,由于本专利技术实施例预先建立了每个版权文本对应的词位置信息表,用于维护版权文本包含的各个词的词位置信息,结合这个词位置信息表,本发实施例可以确定词序列中抄袭版权文本的词,即位于词位置信息表中,且在词序列中的序列顺序与在词位置信息表中的序列顺序匹配的连续目标词,通过统计版权文本、待检测文本以及连续目标词各自的词总数,并计算版权文本与连续目标词的词总数之差,以及连续目标词与待检测文本的词总数比值;然后结合抄袭内容的词总数与版权文本的词总数之差来计算待检测文本与版权文本的相似度评估权重,最终根据相似度评估权重与连续目标词与待检测文本的词总数比值来计算相似度,整个方法适用于长文本相似度检测场景,提高了长文本检测的效率和准确度。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0020]图1为本专利技术实施例提供的一种单字位置倒排结构的词位置信息表的示例图;
[0021]图2为本专利技术实施例提供的文本相似度检测方法的示意性流程图;
[0022]图3为本申请实施例给提供的步骤S203的示意性流程图;
[0023]图4为本专利技术实施例提供的确定其中一个词是否为连续目标词的示意图;
[0024]图5为本专利技术实施例提供的文本相似度检测装置的功能模块图;
[0025]图6为本专利技术实施例提供的计算机设备的结构框图。
具体实施方式
[0026]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0027]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0029]在本专利技术的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0030]此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0031]需要说明的是,在不冲突的情况下,本专利技术的实施例中的特征可以相互结合。
[0032]用户上传的音频很多是没有获取版权的,比如对小说进行有声书演绎,从而出现侵权风险。为了解决版权侵权问题,需要开发一个系统,在用户上传声音时,能够对声音进行语音识别得到待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本相似度检测方法,其特征在于,所述方法包括:获取待检测文本,并对所述待检测文本进行分词,得到词序列;根据版权文本对应的词位置信息表,从所述词序列中,确定位于所述词位置信息表中,且在所述词序列中的序列顺序与在所述词位置信息表中的序列顺序匹配的连续目标词;所述连续目标词与所述版权文本匹配;统计所述版权文本、所述待检测文本以及所述连续目标词各自的词总数,并计算所述版权文本与所述连续目标词的词总数之差,以及所述连续目标词与所述待检测文本的词总数比值;将所述词总数之差输入预设函数中得到相似度评估权重,并将所述相似度评估权重与所述词总数比值之间的乘积作为所述待检测文本与所述版权文本之间的相似度;所述相似度用于确定所述待检测文本是否属于版权文本。2.根据权利要求1所述的文本相似度检测方法,其特征在于,根据版权文本对应的词位置信息表,从所述词序列中,确定位于所述词位置信息表中,且在所述词序列中的序列顺序与在所述词位置信息表中的序列顺序匹配的连续目标词,包括:若当前词和位于所述当前词之后第一预设数量个词均位于所述词位置信息表中,则根据所述当前词以及第一预设数量个所述词之间的词位置关系,确定所述当前词是否是所述连续目标词;所述当前词为所述词序列中的任意一个;若是所述连续目标词,则若所述当前词的下一个词位于所述词位置信息表中,则根据所述下一个词的词位置与所述当前词的词位置之间的大小关系确定所述当前词的下一个词是否为所述连续目标词。3.根据权利要求2所述的文本相似度检测方法,其特征在于,若当前词和位于所述当前词之后第一预设数量个词均位于所述词位置信息表中,则根据所述当前词以及第一预设数量个所述词之间的词位置关系,确定所述当前词是否是所述连续目标词,包括:根据预设长度的滑动窗口,从所述词序列的起始位置开始扫描,将位于所述滑动窗口内的第一个词作为所述当前词;判断所述当前词是否位于所述词位置信息表中;若否,则将所述滑动窗口移动到所述当前词的下一个词位置,返回执行判断当前词是否位于所述词位置信息表中的步骤,直到所述当前词位于所述词位置信息表中;若是,则判断在所述滑动窗口内是否存在至少第一预设数量个位于所述词位置信息表中的词,并且所述当前词的词位置与第一预设数量个所述词的词位置之间存在一个递增的有序序列;若不存在,则确定所述当前词为非连续目标词,返回执行将所述滑动窗口移动到所述当前词的下一个词位置的步骤;若存在,则确定所述当前词为所述连续目标词。4.根据权利要求3所述的文本相似度检测方法,其特征在于,若是所述连续目标词,则若所述当前词的下一个词位于所述词位置信息表中,则根据所述下一个词的词位置与所述当前词的词位置之间的大小关系确定所述当前词的下一个词是否为所述连续目标词,包括:判断位于所述当前词之后的下一个词是否...

【专利技术属性】
技术研发人员:颜杰
申请(专利权)人:上海喜马拉雅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1