基于人工智能的语义相似度获取方法及装置制造方法及图纸

技术编号:15542258 阅读:128 留言:0更新日期:2017-06-05 11:17
本发明专利技术提出一种基于人工智能的语义相似度获取方法及装置,其中,方法包括:通过在得到query和title的多粒度特征后,获取每个粒度特征的权重,通过该权重可以体现出不同粒度的特征所具有的重要程度,然后在对query和title进行多粒度表示时,加入了每个粒度特征的权重这一因数,从而在计算query和title相似度时,不同粒度特征根据自己的重要性发挥不同的作用,使得相似度计算精度更高,实现对现有语音相似度模型的优化,并且可以使得搜索结果精准,能够更符合用户的需求。

Method and device for acquiring semantic similarity based on Artificial Intelligence

The present invention includes a method and a device for acquiring, semantic similarity based on artificial intelligence, methods: the multi granularity characteristics of query and title, obtain the weight of each grain size characteristics, the weight can reflect the degree of important features in different size, and then in the multi granularity of query and title said, adding that the weight of each factor to the characteristics of grain size, query and title in the calculation of the similarity, different size features according to their importance to play different roles, the similarity calculation accuracy is higher, to optimize the existing speech similarity model, and can make the search results are accurate and can better meet the user the demand.

【技术实现步骤摘要】
基于人工智能的语义相似度获取方法及装置
本专利技术涉及信息处理
,尤其涉及一种基于人工智能的语义相似度获取方法及装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。基于人工智能对用户的搜索行为进行分析,可以得知用户在搜索时目的是通过搜索结果能够尽快获取到与用户所输入的搜索词相关的内容。根据搜索词的语义进行检索是实现知识检索的关键之一,而相似度计算则是语义检索的基础。目前语义相似度模型可以计算用户搜索时所输入的搜索词(query)与候选搜索条目(title)之间的相似度,在获取query与title之间的相似度之后,搜索引擎可以对获取到的相似度进行排序,按照排序结果返回搜索结果。图1为现有的语义相似度模型的结构示意图。该语义相似度模型包括:底层为嵌入(embedding)层、变换(BOW)层、对比(FC)层以及顶层打分(Score)层。其中,embedding层由所有字典词的向量化表示组成,当用户在搜索时输入的一个句子后,embedding层可以将该句子映射成一个二维向量,每一个子向量为其术语(term)对应的term-embedding;BOW层表示对二维向量所作的变换,将二维向量变换成一个一维向量,该层也可以被替换成卷积与pooling;FC层为全联通层,该FC层对一维向量做线性变换,可选的可以在线性变换后增加一个激活函数,通过该激活函数加上非线性转换;Score层用于对得到的query和title之间的相似度做度量。例如,query为“百度巴西葡语”,而title“巴西葡语”,在对query和title切词后,可得到query和title离散的词序列,query的离散词序列包括:百度、巴西、葡语,而title离散的词序列包括:巴西、葡语。通过图1所示的语义相似度计模型计算query和title之前的相似度时,将query切词后的每个单词作为一个粒度,然后利用query所有的单词对query做一个单粒度向量表示,相应地,将title切词后的每个单词作为一个粒度,然后利用title所有的单词对title做一个单粒度向量表示。这种单粒度的语义相似度计算,获取到相似度精度较差,导致搜索结果不够理想。为了提高搜索精度,如图2所示,对语义相似模型进行了改进,在相似度计算的过程中,对query和title进行切词后,利用分词语料进行特征提取,获取到query和title的多个粒度特征,如query的基础粒度特征(query-basic)query的二元特征(query-basic-bigram),title的基础粒度特征(title-basic)、title的二元特征(title-basic-bigram)。如图2所示虽然引入了多粒度来表示query和title,但是在计算query和title之间的相似度之前,语义相似度模型中并不对query和title的多粒度特征不进行区分,在变换BOW层直接将query的多粒度特征相加,得到query的多粒度表示,将title的多粒度特征相加,得到title的多粒度表示。现有的语音相似度模型由于不对多粒度特征进行区别直接将多粒度相加,得到query和title的多粒度表示,使得搜索引擎得到的搜索结果精确性较差。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于人工智能的语义相似度获取方法,以实现对现有语音相似度模型进行优化,用于解决现有技术中的语音相似度模型由于不对多粒度特征进行区别直接将多粒度相加,得到query和title的多粒度表示,使得搜索引擎得到的搜索结果精确性较差。本专利技术的第二个目的在于提出一种基于人工智能的语义相似度获取装置。本专利技术的第三个目的在于提出另一种基于人工智能的语义相似度获取装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种基于人工智能的语义相似度获取方法,包括:获取搜索词与搜索条目的粒度特征;基于所述搜索词的每个粒度特征与所述搜索条目的粒度特征进行相似度计算,得到每个粒度特征对应的权重;利用每个粒度特征对应的权重对所述搜索词和所述搜索条目进行加权计算,得到所述搜索词的粒度向量和所述搜索条目的粒度向量;基于所述搜索词的粒度向量和所述搜索条目的粒度向量,计算所述搜索词与所述搜索条目之间的相似度。本专利技术实施例的基于人工智能的语义相似度获取方法,通过在得到query和title的粒度特征后,获取每个粒度特征的权重,通过该权重可以体现出不同粒度的特征所具有的重要程度,然后在对query和title进行多粒度表示时,加入了每个粒度特征的权重这一因数,从而在计算query和title相似度时,不同粒度特征根据自己的重要性发挥不同的作用,使得相似度计算精度更高,实现对现有语音相似度模型的优化,并且可以使得搜索结果精准,能够更符合用户的需求。为达上述目的,本专利技术第二方面实施例提出了一种基于人工智能的语义相似度获取装置,包括:特征获取模块,用于获取搜索词与搜索条目的粒度特征;权重计算模块,用于基于所述搜索词的每个粒度特征与所述搜索条目的粒度特征进行相似度计算,得到每个粒度特征对应的权重;向量获取模块,用于利用每个粒度特征对应的权重对所述搜索词和所述搜索条目进行加权计算,得到所述搜索词的粒度向量和所述搜索条目的粒度向量;相似度计算模块,用于基于所述搜索词的粒度向量和所述搜索条目的粒度向量,计算所述搜索词与所述搜索条目之间的相似度。本专利技术实施例的基于人工智能的语义相似度获取装置,通过在得到query和title的粒度特征后,获取每个粒度特征的权重,通过该权重可以体现出不同粒度的特征所具有的重要程度,然后在对query和title进行多粒度表示时,加入了每个粒度特征的权重这一因数,从而在计算query和title相似度时,不同粒度特征根据自己的重要性发挥不同的作用,使得相似度计算精度更高,实现对现有语音相似度模型的优化,并且可以使得搜索结果精准,能够更符合用户的需求。为达上述目的,本专利技术第三方面实施例提出了另一种基于人工智能的语义相似度获取装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:获取搜索词与搜索条目的粒度特征;基于所述搜索词的每个粒度特征与所述搜索条目的粒度特征进行相似度计算,得到每个粒度特征对应的权重;利用每个粒度特征对应的权重对所述搜索词和所述搜索条目进行加权计算,得到所述搜索词的粒度向量和所述搜索条目的粒度向量;基于所述搜索词的粒度向量和所述搜索条目的粒度向量,计算所述搜索词与所述搜索条目之间的相似度。为了实现上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够本文档来自技高网
...
基于人工智能的语义相似度获取方法及装置

【技术保护点】
一种基于人工智能的语义相似度获取方法,其特征在于,包括:获取搜索词与搜索条目的粒度特征;基于所述搜索词的每个粒度特征与所述搜索条目的粒度特征进行相似度计算,得到每个粒度特征对应的权重;利用每个粒度特征对应的权重对所述搜索词和所述搜索条目进行加权计算,得到所述搜索词的粒度向量和所述搜索条目的粒度向量;基于所述搜索词的粒度向量和所述搜索条目的粒度向量,计算所述搜索词与所述搜索条目之间的相似度。

【技术特征摘要】
1.一种基于人工智能的语义相似度获取方法,其特征在于,包括:获取搜索词与搜索条目的粒度特征;基于所述搜索词的每个粒度特征与所述搜索条目的粒度特征进行相似度计算,得到每个粒度特征对应的权重;利用每个粒度特征对应的权重对所述搜索词和所述搜索条目进行加权计算,得到所述搜索词的粒度向量和所述搜索条目的粒度向量;基于所述搜索词的粒度向量和所述搜索条目的粒度向量,计算所述搜索词与所述搜索条目之间的相似度。2.根据权利要求1所述的基于人工智能的语义相似度获取方法,其特征在于,所述获取搜索词与搜索条目的粒度特征,包括:对所述搜索词和所述搜索条目进行切词,得到所述搜索词和所述搜索条目的分词语料;利用神经网络对所述分词语料进行特征提取,得到所述搜索词的粒度特征和所述搜索条目的粒度特征。3.根据权利要求1所述的基于人工智能的语义相似度获取方法,其特征在于,所述基于所述搜索词的每个粒度特征与所述搜索条目的粒度特征进行相似度计算,得到每个粒度特征对应的权重,包括:将所述搜索词的每个粒度特征分别与所述搜索条目的同类型的粒度特征进行相似计算,得到每个粒度特征对应的权重。4.根据权利要求3所述的基于人工智能的语义相似度获取方法,其特征在于,所述将所述搜索词的每个粒度特征分别与所述搜索条目的同类型的粒度特征进行相似计算得到每个粒度特征对应的权重,包括:将所述搜索词的每个粒度特征分别与所述搜索条目的同类型的粒度特征进行余弦相似度计算,得到每个粒度特征对应的权重。5.根据权利要求4所述的基于人工智能的语义相似度获取方法,其特征在于,所述利用每个粒度特征对应的权重对所述搜索词和所述搜索条目进行加权计算,得到所述搜索词的粒度向量和所述搜索条目的粒度向量,包括:对每个粒度特征对应的权重进行归一化处理,得到每个粒度对应的归一化权重;针对所述搜索词和所述搜索条目,将每个粒度特征与对应的所述归一化权重的乘积相加,得到所述搜索词的粒度向量和所述搜索条目的粒度向量。6.根据权利要求5所述的基于人工智能的语义相似度获取方法,其特征在于,所述基于所述搜索词的粒度向量和所述搜索条目的粒度向量,计算所述搜索词与所述搜索条目之间的相似度,包括:对所述搜索词的每个粒度特征与所述搜索条目的粒度向量进行相似度计算得到第一权重,以及对所述搜索条目的每个粒度特征与所述搜索条目的粒度向量进行相似度计算得到第二权重;将所述搜索词的每个粒度特征与所述第一权重进行加权计算,并将所述搜索条目的每个粒度特征与所述第二权重进行加权计算;利用加权计算的结果更新所述搜索词的粒度向量和所述搜索条目的粒度向量;对所述搜索词的粒度向量和所述搜索条目的粒度向量的相似度进行计算,得到所述搜索词和所述搜索条目之间的相似度。7.根据权利要求6所述的基于人工智能的语义相似度获取方法,其特征在于,所述利用加权计算的结果更新所述搜索词的粒度向量和所述搜索条目的粒度向量之前,还包括:对经过所述加权计算更新后的所述搜索词的粒度向量和所述搜索条目的粒度向量,按照预设的迭代次数迭代执行所述对所述搜索词的每个粒度特征与所述搜索条目的粒度向量进行相似度计算得到第一权重,以及对所述搜索条目的每个粒度特征与所述搜索条目的粒度向量进行相似度计算得到第二权重,以及将所述搜索词的每个粒度特征与所述第一权重进行加权计算,并将所述搜索条目的每个粒度特征与所述第二权重进行加权计算,直到所述迭代次数完成为止。8.根据权利要求5或6所述的基于人工智能的语音相似度获取方法,其特征在于,所述将所述搜索词的每个粒度特征与所述第一权重进行加权计算,并将所述搜索条目的每个粒度特征与所述第二权重进行加权计算,包括:对所述第一权重和所述第二权重...

【专利技术属性】
技术研发人员:周坤胜何径舟石磊冯仕堃朱志凡
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1