一种高效的短文本相似性确定方法和装置制造方法及图纸

技术编号:33292495 阅读:48 留言:0更新日期:2022-05-01 00:14
本公开的一方面涉及一种高效的短文本相似性确定方法,包括对语料库中的短文本进行分词以获得对应的词序列;基于所述语料库中的短文本总数确定惩罚,所述惩罚随所述语料库中的短文本总数增大而减小;确定所述词序列中每个词的词频和调整后的逆文档频率,其中所述调整后的逆文档频率基于所述惩罚来计算;用所述调整后的逆文档频率对每个词的词频进行加权;组合所述词序列中每个词的加权词频以确定所述短文本的词频向量;以及基于所述词频向量来确定所述短文本与其他短文本的相似性。本公开还涉及其他相关方面。涉及其他相关方面。涉及其他相关方面。

【技术实现步骤摘要】
一种高效的短文本相似性确定方法和装置


[0001]本申请一般涉及自然语言处理(NLP),尤其涉及高效的短文本相似性确定。

技术介绍

[0002]文本相似性度量是NLP领域常见的问题。针对长文本和短文本,学术界和工业界也分别研究了不同的度量方法。
[0003]对于长文本的相似性度量方法,通常有两种范式:一、对字或词语进行向量化表示,聚合得到长文本的向量表征后计算相似度,常见的有:Word2vec、Bow模型等;二、引入深度学习网络结构,根据上下文语义,学习句子或文本的向量,常见的有Elmo、Bert等,通过构建的句子向量直接计算相似度。
[0004]对于短文本的相似性度量方法,通常也有两种经典范式:一、不对句子进行向量化表征,直接计算字符级别的相似度系数,常见的有jaccard相似度、Sorensen相似度系数、Levenshtein距离以及汉明距离等;二、分词后对句子进行向量化表征,如经典的one

hot、TF

idf算法等。
[0005]然而,对于短文本的相似性度量存在若干问题,包括:1)字符级别的相似性度量忽略了词序因素;2)对于大规模语料库,one

hot的向量维度线性增加,同时数据稀疏导致相似度区分不明显,而对于小量级的语料库,TF

idf的计算公式会导致低频词的idf值偏大,文本向量存在凸点,相似度震动较大。因此,本领域需要改进的更高效、更准确的短文本相似性确定技术。

技术实现思路

[0006]本公开的一方面涉及一种短文本相似性确定方法,包括对语料库中的短文本进行分词以获得对应的词序列;基于所述语料库中的短文本总数确定惩罚,所述惩罚随所述语料库中的短文本总数增大而减小;确定所述词序列中每个词的词频和调整后的逆文档频率,其中所述调整后的逆文档频率基于所述惩罚来计算;用所述调整后的逆文档频率对每个词的词频进行加权;组合所述词序列中每个词的加权词频以确定所述短文本的词频向量;以及基于所述词频向量来确定所述短文本与其他短文本的相似性。
[0007]根据一些示例性实施例,确定每个词的所述调整后的逆文档频率包括确定所述语料库中的文本总数;确定所述语料库中包含该词的文本数;基于所述惩罚来对所述语料库中包含该词的文本数进行调节,以使得当所述语料库中的短文本总数小于第一阈值时,所述语料库中包含该词的文本数被指数式增大;以及基于所述文本总数和经调节的所述语料库中包含该词的文本数来确定所述调整后的逆文档频率。
[0008]根据一些示例性实施例,基于所述惩罚来对所述语料库中包含该词的文本数进行调节进一步使得当所述语料库中的短文本总数大于第二阈值时,所述语料库中包含该词的文本数不被增大。
[0009]根据一些示例性实施例,所述惩罚包括指数式平滑因子,并且所述调节包括将所
述语料库中包含该词的文本数加上所述指数式平滑因子。
[0010]根据一些示例性实施例,用所述调整后的逆文档频率对每个词的词频进行加权包括将所述词频乘以基于所述惩罚计算的所述调整后的逆文档频率。
[0011]根据一些示例性实施例,该方法进一步包括若对所述短文本进行分词获得的词序列与所述其他短文本的词序列长度不同,则对所述短文本的词序列或所述其他短文本的词序列进行填补或切割以使得两者长度相同。
[0012]根据一些示例性实施例,基于所述词频向量来确定所述短文本与其他短文本的相似性包括计算所述短文本的词频向量与所述其他短文本的词频向量之间的余弦距离。
[0013]本公开的其他方面还包括实现相应方法的功能的装置、设备和计算机可读存储介质等。
附图说明
[0014]图1示出了根据本公开的一方面的短文本相似性确定系统的示意图。
[0015]图2示出了根据本公开的一方面的词频确定装置的示意图。
[0016]图3示出了根据本公开的一方面的短文本相似性确定方法的流程图。
[0017]图4示出了根据本公开的一方面的短文本相似性确定装置的框图。
具体实施方式
[0018]词频

逆文档频率(Term Frequency

Inverse Document Frequency,TF

IDF)技术,是一种用于数据检索与文本挖掘的常用加权技术,可以用来评估单个词对于文本库或语料库中某个文本的重要程度。字词的重要性随着它在文件中出现的次数即词频(TF)成正比增加,但同时又会随着它在语料库中出现的频率(IDF)成反比下降。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是所需的关键词。
[0019]为了统计文本的关键词,可先对文本进行分词,随后统计每个词的词频。词频是指给定的词在该文本中出现的次数。文本的关键词在该文本中出现的词频较高。然而,诸如“的”、“得”、“地”、“是”、“也”之类无显著意义高频词容易被误认为关键词。因此,需要对每个词进行加权,以降低此类无显著意义的高频词的权重,而对于语料库中平均意义而言较少见、但在该文本中具有显著意义的词则提升其权重,该权重即可称为逆文档频率(IDF)。
[0020]逆文档频率是词语重要性的度量,并与该词在普遍意义上的常见程度成反比。例如,可通过将语料库的文本总数除以语料库中包含该词语的文本数量,再将得到的商取对数来计算逆文档频率。
[0021]在计算出TF和IDF以后,将这两个值相乘,就得到了该词的TF

IDF值。TF

IDF值越大,意味着该词对文本的重要性越高。取文本中TF

IDF值最高的数个词即得到该文本的关键词。
[0022]根据示例性实施例,本公开的短文本相似性度量可通过生成两个短文本各自的词频向量并计算这两个词频向量的余弦相似度来确定。根据其他示例性实施例,本公开的短文本相似性度量可通过生成两个短文本各自的词频向量并计算这两个词频向量的其他相似度度量来确定,诸如包括但不限于jaccard相似度、Sorensen相似度系数、Levenshtein距
离以及汉明距离等等。
[0023]图1示出了根据本公开的一方面的短文本相似性确定系统100的示意图。如图1中所示,两个或更多个短文本(例如,短文本1和短文本2)可被输入到分词单元102中分别进行分词以获得词序列。分词可以利用各种现有或将来技术。根据示例性实施例,可以使用特定语言适用的分词工具。例如,可以利用第三方分词包如jieba,也可以使用其他中文分词工具包,如THULAC、pkuseg、Hanlp等。
[0024]经分词的短文本(即该短文本的词序列)可能包括不同数量的词。例如,短文本1可能被分词为词序列“词1、词2、
……
、词N”,而短文本2可能被分词为词序列“词1、词2、
……
、词M”,其中N可能不等于M。在此情况下,可采用填补或切割等方式使得两者长本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短文本相似性确定方法,包括:对语料库中的短文本进行分词以获得对应的词序列;基于所述语料库中的短文本总数确定惩罚,所述惩罚随所述语料库中的短文本总数增大而减小;确定所述词序列中每个词的词频和调整后的逆文档频率,其中所述调整后的逆文档频率基于所述惩罚来计算;用所述调整后的逆文档频率对每个词的词频进行加权;组合所述词序列中每个词的加权词频以确定所述短文本的词频向量;以及基于所述词频向量来确定所述短文本与其他短文本的相似性。2.如权利要求1所述的方法,其中,确定每个词的所述调整后的逆文档频率包括:确定所述语料库中的文本总数;确定所述语料库中包含该词的文本数;基于所述惩罚来对所述语料库中包含该词的文本数进行调节,以使得当所述语料库中的短文本总数小于第一阈值时,所述语料库中包含该词的文本数被指数式增大;以及基于所述文本总数和经调节的所述语料库中包含该词的文本数来确定所述调整后的逆文档频率。3.如权利要求2所述的方法,其中,基于所述惩罚来对所述语料库中包含该词的文本数进行调节进一步使得当所述语料库中的短文本总数大于第二阈值时,所述语料库中包含该词的文本数不被增大。4.如权利要求2所述的方法,其中,所述惩罚包括指数式平滑因子,并且所述调节包括将所述语料库中包含该词的文本数加上所述指数式平滑因子。5.如权利要求1所述的方法,其中,用所述调整后的逆文档频率对每个词的词频进行加权包括将所述词频乘以基于所述惩罚计算的所述调整后的逆文档频率。6.如权利要求1所述的方法,进一步包括:若对所述短文本进行分词获得的词序列与所述其他短文本的词序列长度不同,则对所述短文本的词序列或所述其他短文本的词序列进行填补或切割以使得两者长度相同。7.如权利要求1所述的方法,基于所述词频向量来确定所述短文本与其他短文本的相似性包括:计算所述短文本的词频向量与所述其他短文本的词频向量之间的余弦距离。8.一种短文本相似性确定装置,包括:存储器;以及耦合到所述存储器的处理器,所述处理器被配置成:对语料库中的短文本进行分词以获得对应的词序列;基于所述语料库中的短文本总数确定惩罚,所述惩罚随所述语料库中的短文本总数增大而减小;确定所述词序列中每个词的词频和调整后的逆文档频率,其中所述调整后的逆文档频率基于所述惩罚来计算;用所述调整后的逆文档频率对每个词的词频进行加权;组合所述词序列中每个词的加权词频以确定所述短文本的词频向...

【专利技术属性】
技术研发人员:刘东亚
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1