文本相似度检测方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号：37766787 阅读：28 留言：0更新日期：2023-06-06 13:27

本发明专利技术提供的文本相似度检测方法、装置、计算机设备及可读存储介质，方法包括：获取待检测文本，并对待检测文本进行分词，得到词序列；根据版权文本对应的词位置信息表，从词序列中，确定位于词位置信息表中，且在词序列中的序列顺序与在词位置信息表中的序列顺序匹配的连续目标词；统计版权文本、待检测文本以及连续目标词各自的词总数，并计算版权文本与连续目标词的词总数之差，以及连续目标词与待检测文本的词总数比值；将词总数之差输入预设函数中得到相似度评估权重，并将相似度评估权重与词总数比值之间的乘积作为待检测文本与版权文本之间的相似度。本发明专利技术适用于长文本相似度检测场景，提高了检测效率和准确度。提高了检测效率和准确度。提高了检测效率和准确度。

全部详细技术资料下载

【技术实现步骤摘要】
文本相似度检测方法、装置、计算机设备及可读存储介质

[0001]本专利技术涉及计算机
，具体而言，涉及一种文本相似度检测方法、装置、计算机设备及可读存储介质。

技术介绍

[0002]用户在音频平台上可以上传的自己录制的音频，比如对小说进行有声书演绎，这些被上传的音频可能并没有获取版权，从而出现侵权风险，为了解决版权侵权问题，需要对用户上传声音进行在线审核，判断上传的声音是否有版权。
[0003]目前，检测音频是否有版权的方式是:先将用户上传声音进行语音识别，得到待审核文本，再检测待审核文本和版权文本库中的版权文本之间的相似度，确定其是否侵权。
[0004]然而，在检测文本相似度的过程中，现有方式会由于语音识别会存在识别文字错误或者断句错误，导致相似度检测准确性低，可能出现同一个待审核文本与多个版权文本之间的相似度无法区分的现象；另外现有检测方式无法快速确定长文本之间的相似度，导致长文本检测效率低。

技术实现思路

[0005]本专利技术的目的之一在于提供一种文本相似度检测方法、装置、计算机设备及可读存储介质，用以提高长文本检测效率和准确性，本专利技术技术方案可以根据如下实现：
[0006]第一方面，本专利技术提供一种文本相似度检测方法，所述方法包括：
[0007]获取待检测文本，并对所述待检测文本进行分词，得到词序列；
[0008]根据版权文本对应的词位置信息表，从所述词序列中，确定位于所述词位置信息表中，且在所述词序列中的序列顺序与在所述词位置信息表中的序...

【技术保护点】

【技术特征摘要】
1.一种文本相似度检测方法，其特征在于，所述方法包括：获取待检测文本，并对所述待检测文本进行分词，得到词序列；根据版权文本对应的词位置信息表，从所述词序列中，确定位于所述词位置信息表中，且在所述词序列中的序列顺序与在所述词位置信息表中的序列顺序匹配的连续目标词；所述连续目标词与所述版权文本匹配；统计所述版权文本、所述待检测文本以及所述连续目标词各自的词总数，并计算所述版权文本与所述连续目标词的词总数之差，以及所述连续目标词与所述待检测文本的词总数比值；将所述词总数之差输入预设函数中得到相似度评估权重，并将所述相似度评估权重与所述词总数比值之间的乘积作为所述待检测文本与所述版权文本之间的相似度；所述相似度用于确定所述待检测文本是否属于版权文本。2.根据权利要求1所述的文本相似度检测方法，其特征在于，根据版权文本对应的词位置信息表，从所述词序列中，确定位于所述词位置信息表中，且在所述词序列中的序列顺序与在所述词位置信息表中的序列顺序匹配的连续目标词，包括：若当前词和位于所述当前词之后第一预设数量个词均位于所述词位置信息表中，则根据所述当前词以及第一预设数量个所述词之间的词位置关系，确定所述当前词是否是所述连续目标词；所述当前词为所述词序列中的任意一个；若是所述连续目标词，则若所述当前词的下一个词位于所述词位置信息表中，则根据所述下一个词的词位置与所述当前词的词位置之间的大小关系确定所述当前词的下一个词是否为所述连续目标词。3.根据权利要求2所述的文本相似度检测方法，其特征在于，若当前词和位于所述当前词之后第一预设数量个词均位于所述词位置信息表中，则根据所述当前词以及第一预设数量个所述词之间的词位置关系，确定所述当前词是否是所述连续目标词，包括：根据预设长度的滑动窗口，从所述词序列的起始位置开始扫描，将位于所述滑动窗口内的第一个词作为所述当前词；判断所述当前词是否位于所述词位置信息表中；若否，则将所述滑动窗口移动到所述当前词的下一个词位置，返回执行判断当前词是否位于所述词位置信息表中的步骤，直到所述当前词位于所述词位置信息表中；若是，则判断在所述滑动窗口内是否存在至少第一预设数量个位于所述词位置信息表中的词，并且所述当前词的词位置与第一预设数量个所述词的词位置之间存在一个递增的有序序列；若不存在，则确定所述当前词为非连续目标词，返回执行将所述滑动窗口移动到所述当前词的下一个词位置的步骤；若存在，则确定所述当前词为所述连续目标词。4.根据权利要求3所述的文本相似度检测方法，其特征在于，若是所述连续目标词，则若所述当前词的下一个词位于所述词位置信息表中，则根据所述下一个词的词位置与所述当前词的词位置之间的大小关系确定所述当前词的下一个词是否为所述连续目标词，包括：判断位于所述当前词之后的下一个词是否...

【专利技术属性】
技术研发人员：颜杰，
申请(专利权)人：上海喜马拉雅科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人