构建语义查询词模板的方法及装置制造方法及图纸

技术编号:14275681 阅读:39 留言:0更新日期:2016-12-24 17:28
本发明专利技术公开了一种构建语义查询词模板的方法及装置,属于信息技术领域。方法包括:获取种子语义查询词模板,种子语义查询词模板中至少包含一个核心词;根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括核心词和语义修饰词;根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词;基于每个语义修饰词的相似词,构建语义查询词模板。本发明专利技术根据种子语义查询词模板中包含的核心词进行查询,在查询过程中不断地基于原有的核心词进行扩展,从而自动地挖掘出大量的语义查询词模板,在该过程中,无需用户进行观察,不仅降低了成本,而且提高了构建速度。

【技术实现步骤摘要】

本专利技术涉及信息
,特别涉及一种构建语义查询词模板的方法及装置
技术介绍
在搜索引擎中,用户有时候会输入一些语义层面的查询词,简称为语义查询词,例如,在音乐搜索中输入的“粤语歌曲”、“睡觉前听的歌曲”、“经典老歌”等。由于这些语义查询词缺乏针对性,如果对于这些语义查询词直接按照普通的关键词匹配方式进行查询,很难查询出用户所需的查询结果。为了解决这个问题,通常需要构建语义查询词模板,且构建的每个语义查询词模板中包含一个核心词,当用户输入的任一语义查询词中包含任一语义查询词模板中的核心词时,将使用该语义查询词模板为用户进行搜索。例如,若用户输入的语义查询词为“少儿歌曲”,该语义查询词包含语义查询词模板“***歌曲”中的核心词“歌曲”,则将使用语义查询词模板“***歌曲”为用户进行搜索。现有技术在构建语义查询词模板时,通常采用人工观察的方法从互联网上的海量查询词中识别出语义查询词,之后根据识别出的语义查询词,构建语义查询词模板。而在该过程中,由于互联网上的查询词的数量较多,采用人工观察的方法构建语义查询词模板,不仅速度较慢,而且成本较高。
技术实现思路
为了解决相关技术的问题,本专利技术实施例提供了一种构建语义查询词模板的方法及装置。所述技术方案如下:一方面,提供了一种构建语义查询词模板的方法,所述方法包括:获取种子语义查询词模板,所述种子语义查询词模板中至少包含一个核心词;根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括所述核心词和语义修饰词;根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词;基于所述每个语义修饰词的相似词,构建语义查询词模板。另一方面,提供了一种构建语义查询词模板的装置,所述装置包括:获取模块,用于获取种子语义查询词模板,所述种子语义查询词模板中至少包含一个核心词;第一查询模块,用于根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括所述核心词和语义修饰词;第二查询模块,用于根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词;构建模块,用于基于所述每个语义修饰词的相似词,构建语义查询词模板。本专利技术实施例提供的技术方案带来的有益效果是:根据种子语义查询词模板中包含的核心词进行查询,在查询过程中不断地基于原有的核心词进行扩展,从而自动地挖掘出大量的语义查询词模板,在该过程中,无需用户进行观察,不仅降低了成本,而且提高了构建速度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种构建语义查询词模板的方法流程图;图2是本专利技术另一个实施例提供的一种构建语义查询词模板的方法流程图;图3是本专利技术另一个实施例提供的一种根据点击率计算相似性的示意图;图4是本专利技术另一个实施例提供的构建语义查询词模板的示例图;图5是本专利技术另一个实施例提供的一种构建语义查询词模板的装置结构示意图;图6是本专利技术另一个实施例提供的一种构建语义查询词模板的装置框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。随着信息技术的发展,互联网上的信息呈爆炸式增长,为了能够快速地获取到所需的信息,越来越多的用户借助搜索引擎进行查询。在借助搜索引擎查询的过程中,用户可能会在搜索引擎中输入一些语义查询词,例如,“儿童童话”、“少儿歌曲”、“轻音乐”等等。由于这些语义查询词缺乏针对性,如果根据这些语义查询词直接进行查询,查询出的结果查询结果很难满足用户的需求。为了更好地为用户查询出符合需求的查询结果,目前主要借助构建的语义查询词模板进行搜索。而在构建语义查询词模板时,如果采用人工观察的方式,不仅速度慢,而且成本较高,为此,本专利技术实施例提供了一种构建语义查询词模板的方法,参见图1,本实施例提供的方法流程包括:101、获取种子语义查询词模板,种子语义查询词模板中至少包含一个核心词。102、根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括核心词和语义修饰词。103、根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词。104、基于每个语义修饰词的相似词,构建语义查询词模板。本专利技术实施例提供的方法,根据种子语义查询词模板中包含的核心词进行查询,在查询过程中不断地基于原有的核心词进行扩展,从而自动地挖掘出大量的语义查询词模板,在该过程中,无需用户进行观察,不仅降低了成本,而且提高了构建速度。在本专利技术的另一个实施例中,根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,包括:查询互联网查询词集合中是否存在包含种子语义查询词模板中的核心词的互联网查询词;当互联网查询词集合中存在包含核心词的互联网查询词,将包含核心词的互联网查询词作为目标词。在本专利技术的另一个实施例中,根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词,包括:计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度;按照相似度由高到低的顺序,对每个互联网查询词进行排序,得到排序结果;根据排序结果,将位数在第一指定位数之前的互联网查询词作为语义修饰词之间的相似词。在本专利技术的另一个实施例中,计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度,包括:获取目标词的语义修饰词在指定文档中的第一点击率;获取互联网查询词集合中任一互联网查询词在指定文档中的第二点击率;根据第一点击率及第二点击率,计算目标词的语义修饰词与互联网查询词之间的相似度。在本专利技术的另一个实施例中,根据第一点击率及第二点击率,计算目标词
的语义修饰词与互联网查询词之间的相似度,包括:根据第一点击率,生成第一向量;根据第二点击率,生成第二向量;计算第一向量和第二向量的夹角余旋值;将夹角余弦值作为目标词的语义修饰词与互联网查询词之间的相似度;其中,第一向量及第二向量的维数与指定文档的个数相等。在本专利技术的另一个实施例中,基于每个语义修饰词的相似词,构建语义查询词模板,包括:去除每个语义修饰词的相似词中包含的语义修饰词,得到每个语义修饰词的语义扩展词;对语义扩展词进行合并,得到目标语义扩展词;去除目标语义扩展词中的噪音词,得到语义查询词模板。在本专利技术的另一个实施例中,去除目标语义扩展词中的噪音词,得到语义查询词模板,包括:按照频次由高到低,对目标语义扩展词进行排序,得到排序结果;根据排序结果,将位数在第二指定位数之前的目标语义扩展词作为语义查询词模板。上述所有可选技术方案,可以采用任意结合形成本专利技术的可选实施例,在此不再一一赘述。本专利技术实施例提供了一种构建语义查询词模板的方法,参见图2,本实施例提供的方法流程包括:201、服务器获取种子语义查询词模板,该种子语义查询词模板中至少包含一个核心词。在搜索引擎中,语义查询词为用户输入的一些语义层面的查询词,例如,
在音乐搜索引擎中,用户输入的“80年歌曲”、“经典老歌”本文档来自技高网
...
构建语义查询词模板的方法及装置

【技术保护点】
一种构建语义查询词模板的方法,其特征在于,所述方法包括:获取种子语义查询词模板,所述种子语义查询词模板中至少包含一个核心词;根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括所述核心词和语义修饰词;根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词;基于所述每个语义修饰词的相似词,构建语义查询词模板。

【技术特征摘要】
1.一种构建语义查询词模板的方法,其特征在于,所述方法包括:获取种子语义查询词模板,所述种子语义查询词模板中至少包含一个核心词;根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括所述核心词和语义修饰词;根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词;基于所述每个语义修饰词的相似词,构建语义查询词模板。2.根据权利要求1所述的方法,其特征在于,所述根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,包括:查询互联网查询词集合中是否存在包含所述种子语义查询词模板中的核心词的互联网查询词;当所述互联网查询词集合中存在包含所述核心词的互联网查询词,将所述包含所述核心词的互联网查询词作为目标词。3.根据权利要求1所述的方法,其特征在于,所述根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词,包括:计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度;按照相似度由高到低的顺序,对每个互联网查询词进行排序,得到排序结果;根据所述排序结果,将位数在第一指定位数之前的互联网查询词作为所述语义修饰词的相似词。4.根据权利要求3所述的方法,其特征在于,所述计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度,包括:获取所述目标词的语义修饰词在指定文档中的第一点击率;获取互联网查询词集合中任一互联网查询词在所述指定文档中的第二点击率;根据所述第一点击率及所述第二点击率,计算所述目标词的语义修饰词与所述互联网查询词之间的相似度。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一点击率及所述第二点击率,计算所述目标词的语义修饰词与所述互联网查询词之间的相似度,包括:根据所述第一点击率,生成第一向量;根据所述第二点击率,生成第二向量;计算所述第一向量和所述第二向量的夹角余旋值;将所述夹角余弦值作为所述目标词的语义修饰词与所述互联网查询词之间的相似度;其中,所述第一向量及所述第二向量的维数与所述指定文档的个数相等。6.根据权利要求1所述的方法,其特征在于,所述基于所述每个语义修饰词的相似词,构建语义查询词模板,包括:去除所述每个语义修饰词的相似词中包含的语义修饰词,得到所述每个语义修饰词的语义扩展词;对所述语义扩展词进行合并,得到目标语义扩展词;去除所述目标语义扩展词中的噪音词,得到语义查询词模板。7.根据权利要求6所述的方法,其特征在于,所述去除所述目标语义扩展词中的噪音词,得到语义查询词模板,包括:按照频次由高...

【专利技术属性】
技术研发人员:蒋雷
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1