短文本相似度的确定方法、装置及存储介质制造方法及图纸

技术编号:22218902 阅读:20 留言:0更新日期:2019-09-30 01:15
本发明专利技术提供一种短文本相似度的确定方法、装置及存储介质。通过对获取的第一短文本和第二短文本进行拆解,得到第一短文本和第二短文本的属性信息,其中属性信息包括语义信息、拼音信息、部件信息和笔顺信息,根据第一短文本和第二短文本的属性信息,确定第一短文本和第二短文本的文本相似度。由于考虑短文本在四个维度上的相似度,且拆分的最小单元比单个汉字的粒度更小,大大提高了短文本相似度计算的准确性。

Method, Device and Storage Media for Determining Similarity of Short Text

【技术实现步骤摘要】
短文本相似度的确定方法、装置及存储介质
本专利技术实施例涉及文本信息
,尤其涉及一种短文本相似度的确定方法、装置及存储介质。
技术介绍
文本相似度计算是自然语言处理的基本问题,在诸如对话系统和信息检索系统中,如何度量句子或者短语之间的相似度尤为重要。例如,用户通过语音或者输入法的使用查询信息时,可能存在口音或者手误,但用户描述的文本中仍然隐含用户想要表达的信息,准确识别和理解这些文本信息,就需要使用文本相似度的计算。文本相似度的计算主要应用的技术是编辑距离,又称Levenshtein距离,是一种常用的距离函数度量方法,在文本相似度检测领域得到了广泛的应用。该技术是以单独的汉字为最小粒度,计算各个字符(汉字是一种宽字符)之间的编辑距离只是文字表面的距离,并没有充分考虑词语的概念,使得计算结果的准确率不高,特别是对中文文本的相似度计算得不到满意的结果。
技术实现思路
本专利技术提供一种短文本相似度的确定方法、装置及存储介质,提高了短文本相似度计算的准确性。本专利技术的第一方面提供一种短文本相似度的确定方法,包括:获取第一短文本和第二短文本;分别对所述第一短文本和所述第二短文本进行拆解,得到所述第一短文本和所述第二短文本的属性信息;所述属性信息包括语义信息、拼音信息、部件信息和笔顺信息;根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的本文相似度。在一种可能的实现方式中,所述第一短文本和所述第二短文本均为一个汉字,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的本文相似度,包括:根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度;根据所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度,确定所述第一短文本和所述第二短文本的文本相似度。在一种可能的实现方式中,所述根据所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度,确定所述第一短文本和所述第二短文本的文本相似度,包括:对所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度进行加权求和,得到所述第一短文本和所述第二短文本的文本相似度。在一种可能的实现方式中,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的语义相似度,包括:根据所述第一短文本和所述第二短文本的语义信息构建语义矩阵;所述第一短文本和所述第二短文本的语义信息的数量均为至少一个;计算所述语义矩阵中所述第一短文本的各语义信息与所述第二短文本的各语义信息的相似度;将最大相似度作为所述第一短文本和所述第二短文本的语义相似度。在一种可能的实现方式中,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的拼音相似度,包括:根据所述第一短文本和所述第二短文本的拼音信息,确定所述第一短文本和所述第二短文本的拼读字母和音标;比对所述第一短文本和所述第二短文本的拼读字母和音标,确定所述第一短文本和所述第二短文本的拼音相似度。在一种可能的实现方式中,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的部件相似度,包括:根据所述第一短文本和所述第二短文本的部件信息,确定所述第一短文本和所述第二短文本的各部件的笔画数以及共现部件;根据各部件的笔画数以及共现部件的笔画数,确定所述第一短文本和所述第二短文本的部件相似度。在一种可能的实现方式中,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的笔顺相似度,包括:根据预设笔顺标识表、所述第一短文本和所述第二短文本的笔顺信息,确定所述第一短文本和所述第二短文本的笔顺标识序列;比对所述第一短文本和所述第二短文本的笔顺标识序列,确定所述第一短文本和所述第二短文本的笔顺相似度。在一种可能的实现方式中,所述第一短文本和所述第二短文本均为词组,所述第一短文本和所述第二短文本包含的汉字数量相同;所述分别对所述第一短文本和所述第二短文本进行拆解,得到所述第一短文本和所述第二短文本的属性信息,包括:分别对所述第一短文本和所述第二短文本的每一个汉字进行拆解,得到所述第一短文本和所述第二短文本中每一个汉字的属性信息。在一种可能的实现方式中,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的本文相似度,包括:根据所述第一短文本和所述第二短文本中每一个汉字的属性信息,确定所述第一短文本和所述第二短文本中具有对应位置关系的汉字之间的文本相似度;根据所述第一短文本和所述第二短文本中具有对应位置关系的汉字之间的文本相似度,确定所述第一短文本和所述第二短文本的总文本相似度。在一种可能的实现方式中,所述根据所述第一短文本和所述第二短文本中具有对应位置关系的汉字之间的文本相似度,确定所述第一短文本和所述第二短文本的总文本相似度,包括:将所述第一短文本和所述第二短文本中具有对应位置关系的汉字之间的文本相似度进行加和取平均值,得到所述第一短文本和所述第二短文本的总文本相似度。本专利技术的第二方面提供一种短文本相似度的确定装置,包括:获取模块,用于获取第一短文本和第二短文本;信息拆解模块,用于分别对所述第一短文本和所述第二短文本进行拆解,得到所述第一短文本和所述第二短文本的属性信息;所述属性信息包括语义信息、拼音信息、部件信息和笔顺信息;确定模块,用于根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的本文相似度。本专利技术的第三方面提供一种短文本相似度的确定装置,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如本专利技术的第一方面任一项所述的短文本相似度的确定方法。本专利技术的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如本专利技术的第一方面任一项所述的短文本相似度的确定方法。本专利技术实施例提供一种短文本相似度的确定方法、装置及存储介质。通过对获取的第一短文本和第二短文本进行拆解,得到第一短文本和第二短文本的属性信息,其中属性信息包括语义信息、拼音信息、部件信息和笔顺信息,根据第一短文本和第二短文本的属性信息,确定第一短文本和第二短文本的文本相似度。由于考虑短文本在四个维度上的相似度,且拆分的最小单元比单个汉字的粒度更小,大大提高了短文本相似度计算的准确性。附图说明图1为本专利技术一实施例提供的短文本相似度的确定方法的流程示意图;图2为本专利技术另一实施例提供的短文本相似度的确定方法的流程示意图;图3为本专利技术又一实施例提供的短文本相似度的确定方法的流程示意图;图4为本专利技术一实施例提供的短文本相似度的确定装置的结构示意图;图5为本专利技术一实施例提供的短文本相似度的确定装置的硬件结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是本文档来自技高网...

【技术保护点】
1.一种短文本相似度的确定方法,其特征在于,包括:获取第一短文本和第二短文本;分别对所述第一短文本和所述第二短文本进行拆解,得到所述第一短文本和所述第二短文本的属性信息;所述属性信息包括语义信息、拼音信息、部件信息和笔顺信息;根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的本文相似度。

【技术特征摘要】
1.一种短文本相似度的确定方法,其特征在于,包括:获取第一短文本和第二短文本;分别对所述第一短文本和所述第二短文本进行拆解,得到所述第一短文本和所述第二短文本的属性信息;所述属性信息包括语义信息、拼音信息、部件信息和笔顺信息;根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的本文相似度。2.根据权利要求1所述的方法,其特征在于,所述第一短文本和所述第二短文本均为一个汉字,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的本文相似度,包括:根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度;根据所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度,确定所述第一短文本和所述第二短文本的文本相似度。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度,确定所述第一短文本和所述第二短文本的文本相似度,包括:对所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度进行加权求和,得到所述第一短文本和所述第二短文本的文本相似度。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的语义相似度,包括:根据所述第一短文本和所述第二短文本的语义信息构建语义矩阵;所述第一短文本和所述第二短文本的语义信息的数量均为至少一个;计算所述语义矩阵中所述第一短文本的各语义信息与所述第二短文本的各语义信息的相似度;将最大相似度作为所述第一短文本和所述第二短文本的语义相似度。5.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的拼音相似度,包括:根据所述第一短文本和所述第二短文本的拼音信息,确定所述第一短文本和所述第二短文本的拼读字母和音标;比对所述第一短文本和所述第二短文本的拼读字母和音标,确定所述第一短文本和所述第二短文本的拼音相似度。6.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一短文本和所述第二短文本的属性信息,确定所述第一短文本和所述第二短文本的部件相似度,包括:根据所述第一短文本和所述第二短文本的部件信息,确定所述第一短文本和所述第二短文本的各部件的笔画数以及共现部件;根据各部件的笔画数以及共现部件的笔画数,确定所述第一短文本和所述第二...

【专利技术属性】
技术研发人员:钱璟郭辰阳吕继根
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1