本申请涉及数据能力技术领域,公开一种用于计算文本相似度的方法,包括:提取第一文本中的第一特征词和第二文本中的第二特征词;为各第一特征词和各第二特征词分别赋予对应的权重;其中,各第一特征词和各第二特征词所对应的权重根据词性和词频确定;根据特征词和权重生成第一指纹向量和第二指纹向量;再计算第一指纹向量和第二指纹向量之间的海明距离,获得第一文本和第二文本的相似度。本申请考虑到文本中不同词性所能表达文本内容的能力并不相同,因此根据不同词性赋予了不同的加权值。进而计算出来的指纹向量,能更准确地表达文本的含义,使文本相似度的分析更加精准。本申请还公开一种用于计算文本相似度的装置、电子设备和存储介质。备和存储介质。备和存储介质。
【技术实现步骤摘要】
用于计算文本相似度的方法、装置、电子设备和存储介质
[0001]本申请涉及深度学习
,具体而言,涉及一种用于计算文本相似度的方法、装置、电子设备和存储介质。
技术介绍
[0002]目前,互联网上充斥着着大量的近重复信息。据统计表明,近似重复网页的数量占总网页数量的比例高达29%,而完全相同的页面大约占全部页面的22%。即互联网页面中有相当大比例的内容是完全相同或者大体相近的。重复网页有多种类型,有的是没有一点儿改动的副本,有的在内容上稍做修改,比如同一文章的不同版本,一个新一点、一个老一点,有的则仅仅是网页的格式不同。对于搜索引擎而言,大量重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。因此,高效的文本相似度检测就显得尤为重要,尤其是在海量数据的情况之下。
[0003]相关技术中,公开了一种融合关键词特征和多粒度语义特征的文本相似度计算方法。包括:抽取文本d
i
和d
j
的关键词,基于Ksimhash算法抽取文本的关键词特征指纹f
i1
和f
j1
,并计算f
i1
和f
j1
的海明距离得到文本d
i
和d
j
的关键词特征相似度sim1;计算文本d
i
和d
j
的词语语义相似度sim2;计算文本d
i
和d
j
的篇章语义相似度sim3;综合关键词特征相似度sim1、词语语义相似度sim2和篇章语义相似度sim3,得到文本d
i
和d
j
的相似度sim。
[0004]相关技术的问题在于,通过TF
‑
IDF(term frequency
–
inverse document frequency,TF是词频,IDF是逆文本频率指数,是一种用于信息检索与数据挖掘的常用加权技术)方法计算的采样之后的关键词权重。这种方法仅以词频作为度量,因此降维后计算出来的特征指纹可能不能完全表达文本内容,从而导致文本相似度的分析不够精准。
技术实现思路
[0005]为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
[0006]本公开实施例提供了一种用于计算文本相似度的方法、装置、电子设备和存储介质,以使文本相似度的分析更加精准。
[0007]在一些实施例中,用于计算文本相似度的方法包括:提取第一文本中的多个第一特征词和第二文本中的多个第二特征词;
[0008]为各第一特征词和各第二特征词分别赋予对应的权重;其中,各第一特征词和各第二特征词所对应的权重根据特征词的词性和词频计算确定;
[0009]利用各第一特征词和各第一特征词对应的权重生成第一指纹向量;
[0010]利用各第二特征词和各第二特征词对应的权重生成第二指纹向量;
[0011]计算第一指纹向量和第二指纹向量之间的海明距离,获得第一文本和第二文本的相似度。
[0012]可选地,本公开实施例中为各第一特征词和各第二特征词分别赋予对应的权重,包括:
[0013]根据各第一特征词和各第二特征词的词性类型,赋予对应于词性类型的加权值;
[0014]根据各第一特征词的加权值和各第一特征词在第一文本中的出现频次,计算各第一特征词在第一文本中的权重;
[0015]根据各第二特征词的加权值和各第二特征词在第二文本中的出现频次,计算各第二特征词在第二文本中的权重。
[0016]可选地,本公开实施例中权重的计算方法包括:
[0017]weight(w,d)=tf(w,d)*log(N/n
w
+0.01)*w
pos
[0018]其中,weight(w,d)表示特征词w在文本d中的权重;tf(w,d)表示特征词w在文本d中的出现频次;N表示文本的词语总数,n
w
表示文本中出现关键词w的句子数量;w
pos
表示词性类型的加权值。
[0019]可选地,在上述实施例中在特征词的词性类型为动词或名词的情况下,w
pos
=n1;
[0020]在特征词的词性类型为其他词性的情况下,w
pos
=n2;
[0021]其中,n1、n2均为预设值且为大于0的整数,n1>n2。
[0022]可选地,本公开实施例中,提取第一文本中的多个第一特征词和第二文本中的多个第二特征词,包括:
[0023]对第一文本和第二文本进行分词、去停用词处理,提取出第一文本中的多个第一特征词和第二文本中的多个第二特征词。
[0024]可选地,本公开实施例中,利用各第一特征词和各第一特征词的权重生成第一指纹向量,包括:
[0025]将各第一特征词和各第一特征词的权重输入词向量转化模型,计算各第一特征词的向量值;
[0026]根据各第一特征词的向量值和各第一特征词的权重,计算得到第一指纹向量。
[0027]可选地,本公开实施例中,根据各第一特征词的向量值和各第一特征词的权重,计算得到第一指纹向量,包括:
[0028]将各第一特征词的向量值和各第一特征词对应的权重相乘,并对所有的相乘结果进行位的纵向累加,得到第一文本的初始指纹向量;
[0029]对第一文本的初始指纹向量进行二值处理,得到第一文本的指纹向量。
[0030]可选地,本公开实施例中,词向量转化模型包括:word2vec词向量转化模型。
[0031]可选地,本公开实施例中,在对第一文本进行预设处理,提取特征词之前,还包括:确定指纹向量的位数。
[0032]在一些实施例中,所述用于计算文本相似度的装置包括:处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的用于计算文本相似度的方法。
[0033]在一些实施例中,所述电子设备包括:上述的用于计算文本相似度的装置。
[0034]本公开实施例提供的用于计算文本相似度的方法、装置、电子设备和存储介质,可以实现以下技术效果:
[0035]本专利技术采用深度学习
的技术手段。相较于相关技术,本专利技术在计算特征
词的权重方式上有所不同。在计算时,考虑到了文本中不同词性所能表达文本内容的能力并不相同,因此根据特征词的不同词性赋予了不同的权重。进而通过上述方式,计算出来的特征词的权重和基于权重得到的指纹向量,更加准确地表达文本的含义,加强降维后的向量可以直接反映内容的精准度,以使文本相似度的分析更加精准。
[0036]以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
[0037]一个或本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于计算文本相似度的方法,其特征在于,包括:提取第一文本中的多个第一特征词和第二文本中的多个第二特征词;为各第一特征词和各第二特征词分别赋予对应的权重;其中,各第一特征词和各第二特征词所对应的权重根据特征词的词性和词频计算确定;利用各第一特征词和各第一特征词的权重生成第一指纹向量;利用各第二特征词和各第二特征词的权重生成第二指纹向量;计算所述第一指纹向量和所述第二指纹向量之间的海明距离,获得所述第一文本和所述第二文本的相似度。2.根据权利要求1所述的方法,其特征在于,所述为各第一特征词和各第二特征词分别赋予对应的权重,包括:根据各第一特征词和各第二特征词的词性类型,赋予对应于所述词性类型的加权值;根据各第一特征词的加权值和各第一特征词在所述第一文本中的出现频次,计算各第一特征词在所述第一文本中的权重;根据各第二特征词的加权值和各第二特征词在所述第二文本中的出现频次,计算各第二特征词在所述第二文本中的权重。3.根据权利要求2所述的方法,其特征在于,所述权重的计算方法包括:weight(w,d)=tf(w,d)*log(N/n
w
+0.01)*w
pos
式中weight(w,d)表示特征词w在文本d中的权重;tf(w,d)表示特征词w在文本d中的出现频次;N表示文本的词语总数,n
w
表示文本中出现关键词w的句子数量;w
pos
表示词性类型的加权值;其中,在特征词的词性类型为动词或名词的情况下,w
pos
=n1;在特征词的词性类型为其他词性的情况下,w
pos
【专利技术属性】
技术研发人员:付金伟,接钧靖,
申请(专利权)人:北京明略昭辉科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。