语义搜索方法、系统及计算机可读存储介质技术方案

技术编号:25479691 阅读:19 留言:0更新日期:2020-09-01 23:01
本发明专利技术提供了一种语义搜索方法、系统及计算机可读存储介质,该方法包括:通过求解预构建社交网络多特征主题模型得到用户‑主题分布、主题‑单词分布、主题‑话题标签分布、主题‑时间分布;获取待搜索项文本、用户信息、发表时间及话题标签,由待搜索项用户信息和相应分布得到主题矩阵,由该矩阵、文本及相应分布、话题标签及相应分布、发表时间及相应分布分别得到主题‑单词矩阵,主题‑话题标签矩阵,主题‑时间矩阵,通过各特征矩阵计算主题语义;获取搜索项文本,文本和主题‑单词矩阵得到主题语义;由待搜索项和搜索项的主题语义计算相似度;相似度满足设定条件,输出待搜索项。通过上述方案能获得综合、准确的语义表示,实现精准语义搜索。

【技术实现步骤摘要】
语义搜索方法、系统及计算机可读存储介质
本专利技术涉及社交网络短文本语义建模
,尤其涉及一种语义搜索方法、系统及计算机可读存储介质。
技术介绍
如今社交网络平台发展迅速,通过社交网络进行搜索已经成为一种趋势。社交网络数据中的文本非常简洁,因此,文本具有语义稀疏性还会因为不同的时间和位置信息具有歧义性,利用传统的语义分析方法,往往不能获取到准确的语义。为了准确的获取社交网络短文本的语义表示,实现精准的语义搜索,主要方法可以分为两类,一类是使用单词共现频率或单词的语义相似性来将短文本扩展成长文本,在短文本扩展的过程中会引入与短文本无关的单词,应用于搜索任务时,搜索准确度并不能有好的提升。另一类方法是建立综合主题模型,通过用时间或者地理位置信息中的语义对短文本的语义生成过程进行约束,从而获得短文本语义表示,但是语义稀疏性仍存在,并且,在实际的社交网络数据中,地理位置信息很难获取,同时,地理位置信息的真实性存在很大问题。因而,通过使用现有的搜索方法在对短文本语义进行搜索时,仍然存在短文本语义稀疏性,以及获取的搜索结果不够准确等问题。
技术实现思路
鉴于此,本专利技术实施例提供了一种语义搜索方法、系统及计算机可读存储介质,以缓解语义稀疏性,提高语义搜索的精确性。本专利技术的技术方案如下:根据本专利技术实施例的一个方面,提供了一种语义搜索方法,包括以下步骤:基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布;其中,所述社交网络多特征主题模型包括用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型、及主题-时间分布模型;获取待搜索项对应的文本信息、用户信息、文本发表时间信息、及话题标签信息,并根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息、及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息、及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本发表时间信息、及所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,并根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量;获取搜索项对应的文本信息,根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量;根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度;在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出。在一些实施例中,所述用户-主题分布模型符合包含第一超参数的狄利克雷分布,所述主题-单词分布模型符合包含第二超参数的狄利克雷分布,所述主题-话题标签分布模型符合包含第三超参数的狄利克雷分布,所述主题-时间分布模型符合贝塔分布。在一些实施例中,基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布,包括:基于预先构建的双词词典,在设定主题个数、设定的所述第一超参数的值、设定的所述第二超参数的值、及设定的所述第三超参数的值下,利用吉布斯采样算法对预先构建的社交网络多特征主题模型进行参数推断,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布。在一些实施例中,根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,包括:将所述待搜索项对应的用户信息输入至所述用户-主题分布,得到所述待搜索项对应的所述设定主题个数的主题,并由所述设定主题个数的主题构成主题矩阵;根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息、及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,包括:针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的文本信息中的各单词的信息,分别输入至所述主题-单词分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的词分别为所述待搜索项对应的文本信息中的各单词的概率,构成所述待搜索项对应的主题-单词矩阵;根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息、及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,包括:针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的各话题标签信息分别输入至所述主题-话题标签分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的话题标签分别为所述待搜索项对应的各话题标签的概率,构成所述待搜索项对应的主题-话题标签矩阵;根据所述待搜索项对应的主题矩阵和所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,包括:将所述待搜索项对应的主题矩阵中的每个主题的信息,输入至所述主题-时间分布,得到设定数量时间戳对应的概率,构成主题-时间矩阵。在一些实施例中,根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量,包括:分别对所述主题-单词矩阵、所述主题-话题标签矩阵、及所述主题-时间矩阵中同一主题的元素求和,分别得到第一主题向量、第二主题向量、及第三主题向量;计算第一主题向量和第二主题向量的和与所述主题矩阵的乘积,得到第四主题向量;计算所述第四主题向量和所述第三主题向量的和,得到所述待搜索项的主题语义表示向量;根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量,包括:对所述搜索项的文本信息中的文本进行单词划分,根据所述主题-单词分布得到对应于所述单词划分结果的主题-单词矩阵,对该主题-单词矩阵中的同一主题维度的元素求和,得到所述搜索项的主题语义表示向量。在一些实施例中,根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度,包括:利用余弦距离法,根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度。在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出,包括:根据所有待搜索项各自与所述搜索项的相似度,对所述所有待搜索项从大到小进行排序,将排序后的所有待搜索项中至少部分排序靠前的待搜索项作为所述搜索项的搜索结果进行输出。在一些实施例中,所述社交网络多特征主题模型对应的主题采样公式为:其中,表示在不包含双词i的主本文档来自技高网...

【技术保护点】
1.一种语义搜索方法,其特征在于,包括:/n基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布;其中,所述社交网络多特征主题模型包括用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型、及主题-时间分布模型;/n获取待搜索项对应的文本信息、用户信息、文本发表时间信息、及话题标签信息,并根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息、及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息、及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本发表时间信息、及所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,并根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量;/n获取搜索项对应的文本信息,根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量;/n根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度;/n在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出。/n...

【技术特征摘要】
1.一种语义搜索方法,其特征在于,包括:
基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布;其中,所述社交网络多特征主题模型包括用户-主题分布模型、主题-单词分布模型、主题-话题标签分布模型、及主题-时间分布模型;
获取待搜索项对应的文本信息、用户信息、文本发表时间信息、及话题标签信息,并根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息、及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息、及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本发表时间信息、及所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,并根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量;
获取搜索项对应的文本信息,根据所述搜索项对应的文本信息和所述主题-单词矩阵得到所述搜索项对应的主题语义表示向量;
根据所述待搜索项对应的主题语义表示向量和所述搜索项对应的主题语义表示向量,计算所述待搜索项和所述搜索项之间的相似度;
在所述待搜索项和所述搜索项之间的相似度满足设定条件的情况下,将所述待搜索项作为所述搜索项的搜索结果进行输出。


2.如权利要求1所述的语义搜索方法,其特征在于,所述用户-主题分布模型符合包含第一超参数的狄利克雷分布,所述主题-单词分布模型符合包含第二超参数的狄利克雷分布,所述主题-话题标签分布模型符合包含第三超参数的狄利克雷分布,所述主题-时间分布模型符合贝塔分布。


3.如权利要求2所述的语义搜索方法,其特征在于,基于预先构建的双词词典,在设定主题个数下,求解预先构建的社交网络多特征主题模型,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布,包括:
基于预先构建的双词词典,在设定主题个数、设定的所述第一超参数的值、设定的所述第二超参数的值、及设定的所述第三超参数的值下,利用吉布斯采样算法对预先构建的社交网络多特征主题模型进行参数推断,得到用户-主题分布、主题-单词分布、主题-话题标签分布、及主题-时间分布。


4.如权利要求1所述的语义搜索方法,其特征在于,
根据所述待搜索项对应的用户信息和所述用户-主题分布得到所述待搜索项对应的主题矩阵,包括:
将所述待搜索项对应的用户信息输入至所述用户-主题分布,得到所述待搜索项对应的所述设定主题个数的主题,并由所述设定主题个数的主题构成主题矩阵;
根据所述待搜索项对应的主题矩阵、所述待搜索项对应的文本信息、及所述主题-单词分布得到所述待搜索项对应的主题-单词矩阵,包括:
针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的文本信息中的各单词的信息,分别输入至所述主题-单词分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的词分别为所述待搜索项对应的文本信息中的各单词的概率,构成所述待搜索项对应的主题-单词矩阵;
根据所述待搜索项对应的主题矩阵、所述待搜索项对应的话题标签信息、及所述主题-话题标签分布得到所述待搜索项对应的主题-话题标签矩阵,包括:
针对所述待搜索项对应的主题矩阵中的每个主题,将所述待搜索项对应的各话题标签信息分别输入至所述主题-话题标签分布,得到所述待搜索项对应的主题矩阵中的每个主题对应的话题标签分别为所述待搜索项对应的各话题标签的概率,构成所述待搜索项对应的主题-话题标签矩阵;
根据所述待搜索项对应的主题矩阵和所述主题-时间分布得到所述待搜索项对应的主题-时间矩阵,包括:
将所述待搜索项对应的主题矩阵中的每个主题的信息,输入至所述主题-时间分布,得到设定数量时间戳对应的概率,构成主题-时间矩阵。


5.如权利要求1所述的语义搜索方法,其特征在于,
根据所述待搜索项对应的主题矩阵、主题-单词矩阵、主题-话题标签矩阵、及主题-时间矩阵,计算得到所述待搜索项对应的主题语义表示向量,包括:
分别对所述主题-单词矩阵、所述主题-话题标签矩阵、及所述主题-...

【专利技术属性】
技术研发人员:杜军平寇菲菲崔婉秋周南
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1