The present invention includes a method and a device for acquiring, semantic similarity based on artificial intelligence, methods: the multi granularity characteristics of query and title, obtain the weight of each grain size characteristics, the weight can reflect the degree of important features in different size, and then in the multi granularity of query and title said, adding that the weight of each factor to the characteristics of grain size, query and title in the calculation of the similarity, different size features according to their importance to play different roles, the similarity calculation accuracy is higher, to optimize the existing speech similarity model, and can make the search results are accurate and can better meet the user the demand.
【技术实现步骤摘要】
基于人工智能的语义相似度获取方法及装置
本专利技术涉及信息处理
,尤其涉及一种基于人工智能的语义相似度获取方法及装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。基于人工智能对用户的搜索行为进行分析,可以得知用户在搜索时目的是通过搜索结果能够尽快获取到与用户所输入的搜索词相关的内容。根据搜索词的语义进行检索是实现知识检索的关键之一,而相似度计算则是语义检索的基础。目前语义相似度模型可以计算用户搜索时所输入的搜索词(query)与候选搜索条目(title)之间的相似度,在获取query与title之间的相似度之后,搜索引擎可以对获取到的相似度进行排序,按照排序结果返回搜索结果。图1为现有的语义相似度模型的结构示意图。该语义相似度模型包括:底层为嵌入(embedding)层、变换(BOW)层、对比(FC)层以及顶层打分(Score)层。其中,embedding层由所有字典词的向量化表示组成,当用户在搜索时输入的一个句子后,embedding层可以将该句子映射成一个二维向量,每一个子向量为其术语(term)对应的term-embedding;BOW层表示对二维向量所作的变换,将二维向量变换成一个一维向量,该层也可以被替换成卷积与pooling;FC ...
【技术保护点】
一种基于人工智能的语义相似度获取方法,其特征在于,包括:获取搜索词与搜索条目的粒度特征;基于所述搜索词的每个粒度特征与所述搜索条目的粒度特征进行相似度计算,得到每个粒度特征对应的权重;利用每个粒度特征对应的权重对所述搜索词和所述搜索条目进行加权计算,得到所述搜索词的粒度向量和所述搜索条目的粒度向量;基于所述搜索词的粒度向量和所述搜索条目的粒度向量,计算所述搜索词与所述搜索条目之间的相似度。
【技术特征摘要】
1.一种基于人工智能的语义相似度获取方法,其特征在于,包括:获取搜索词与搜索条目的粒度特征;基于所述搜索词的每个粒度特征与所述搜索条目的粒度特征进行相似度计算,得到每个粒度特征对应的权重;利用每个粒度特征对应的权重对所述搜索词和所述搜索条目进行加权计算,得到所述搜索词的粒度向量和所述搜索条目的粒度向量;基于所述搜索词的粒度向量和所述搜索条目的粒度向量,计算所述搜索词与所述搜索条目之间的相似度。2.根据权利要求1所述的基于人工智能的语义相似度获取方法,其特征在于,所述获取搜索词与搜索条目的粒度特征,包括:对所述搜索词和所述搜索条目进行切词,得到所述搜索词和所述搜索条目的分词语料;利用神经网络对所述分词语料进行特征提取,得到所述搜索词的粒度特征和所述搜索条目的粒度特征。3.根据权利要求1所述的基于人工智能的语义相似度获取方法,其特征在于,所述基于所述搜索词的每个粒度特征与所述搜索条目的粒度特征进行相似度计算,得到每个粒度特征对应的权重,包括:将所述搜索词的每个粒度特征分别与所述搜索条目的同类型的粒度特征进行相似计算,得到每个粒度特征对应的权重。4.根据权利要求3所述的基于人工智能的语义相似度获取方法,其特征在于,所述将所述搜索词的每个粒度特征分别与所述搜索条目的同类型的粒度特征进行相似计算得到每个粒度特征对应的权重,包括:将所述搜索词的每个粒度特征分别与所述搜索条目的同类型的粒度特征进行余弦相似度计算,得到每个粒度特征对应的权重。5.根据权利要求4所述的基于人工智能的语义相似度获取方法,其特征在于,所述利用每个粒度特征对应的权重对所述搜索词和所述搜索条目进行加权计算,得到所述搜索词的粒度向量和所述搜索条目的粒度向量,包括:对每个粒度特征对应的权重进行归一化处理,得到每个粒度对应的归一化权重;针对所述搜索词和所述搜索条目,将每个粒度特征与对应的所述归一化权重的乘积相加,得到所述搜索词的粒度向量和所述搜索条目的粒度向量。6.根据权利要求5所述的基于人工智能的语义相似度获取方法,其特征在于,所述基于所述搜索词的粒度向量和所述搜索条目的粒度向量,计算所述搜索词与所述搜索条目之间的相似度,包括:对所述搜索词的每个粒度特征与所述搜索条目的粒度向量进行相似度计算得到第一权重,以及对所述搜索条目的每个粒度特征与所述搜索条目的粒度向量进行相似度计算得到第二权重;将所述搜索词的每个粒度特征与所述第一权重进行加权计算,并将所述搜索条目的每个粒度特征与所述第二权重进行加权计算;利用加权计算的结果更新所述搜索词的粒度向量和所述搜索条目的粒度向量;对所述搜索词的粒度向量和所述搜索条目的粒度向量的相似度进行计算,得到所述搜索词和所述搜索条目之间的相似度。7.根据权利要求6所述的基于人工智能的语义相似度获取方法,其特征在于,所述利用加权计算的结果更新所述搜索词的粒度向量和所述搜索条目的粒度向量之前,还包括:对经过所述加权计算更新后的所述搜索词的粒度向量和所述搜索条目的粒度向量,按照预设的迭代次数迭代执行所述对所述搜索词的每个粒度特征与所述搜索条目的粒度向量进行相似度计算得到第一权重,以及对所述搜索条目的每个粒度特征与所述搜索条目的粒度向量进行相似度计算得到第二权重,以及将所述搜索词的每个粒度特征与所述第一权重进行加权计算,并将所述搜索条目的每个粒度特征与所述第二权重进行加权计算,直到所述迭代次数完成为止。8.根据权利要求5或6所述的基于人工智能的语音相似度获取方法,其特征在于,所述将所述搜索词的每个粒度特征与所述第一权重进行加权计算,并将所述搜索条目的每个粒度特征与所述第二权重进行加权计算,包括:对所述第一权重和所述第二权重...
【专利技术属性】
技术研发人员:周坤胜,何径舟,石磊,冯仕堃,朱志凡,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。