本发明专利技术涉及索引建立技术领域,具体公开了一种跟随搜索关键词的输入同步显示原生提示词的系统及方法,所述系统包括本地权重计算模块,用于根据预设的权重算法计算各个原生关键词的本地权重;全局权重计算模块,用于统计所有目标文本单元的原生关键词,基于本地权重计算全局权重;前驱词分析模块,用于获取并统计每个原生关键词的前驱词,建立每个前驱词的原生关键词集合;索引建立模块,用于基于原生关键词集合及其全局权重建立每个前驱词的索引。本发明专利技术技术方案生成的搜索关键词提示列表来自于一个抽取原生关键词以及计算其本地权重并进而建立抽取的全部原生关键词的全部前驱词构成的全局权重索引系统,搜索的精准度极高。高。高。
【技术实现步骤摘要】
跟随搜索关键词的输入同步显示原生提示词的系统及方法
[0001]本专利技术涉及索引建立
,具体是一种跟随搜索关键词的输入同步显示原生提示词的系统及方法。
技术介绍
[0002]搜索时输入的搜索关键词对于搜索结果是很重要。搜索引擎或搜索算法会将搜索关键词与搜索目标全集做相关性计算,返回与搜索关键词相关或更相关的目标集合。
[0003]搜索中关于相关性的计算通常是综合的算法。那么在其他条件相同的情况下,搜索关键词直接命中目标时,也就是说,搜索关键词本就存在于目标中时,搜索关键词与目标的相关性更高;相比之下,搜索关键词没有命中目标或者部分命中目标时,搜索关键词与目标的相关性更低。
[0004]如果搜索关键词本就存在于目标中,更明确地说,搜索关键词是来自文本目标的原文,是本身具备一定意义的词汇,那么这里称之为原生关键词。原生关键词可以是一个词、词组或短语。
[0005]现有技术中已经存在关于搜索关键词提示技术的应用,比如各个互联网搜索引擎,或者某些垂直搜索引擎,或者某些专用搜索引擎,会在用户输入搜索关键词时,跟随用户的输入,显示一个搜索关键词提示列表。但是,大多数搜索关键词提示列表是来自于对用户输入的搜索关键词的统计,而不是关于原生关键词的降序排列列表。
技术实现思路
[0006]本专利技术的目的在于提供一种跟随搜索关键词的输入同步显示原生提示词的系统及方法,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:
[0008]一种跟随搜索关键词的输入同步显示原生提示词的系统,所述系统包括:
[0009]关键词提取模块,用于根据预设的关键词提取算法依次获取目标文本单元的原生关键词;
[0010]本地权重计算模块,用于根据预设的权重算法计算各个原生关键词的本地权重;
[0011]全局权重计算模块,用于统计所有目标文本单元的原生关键词,基于本地权重计算全局权重;
[0012]前驱词分析模块,用于获取并统计每个原生关键词的前驱词,建立每个前驱词的原生关键词集合;
[0013]索引建立模块,用于基于原生关键词集合及其全局权重建立每个前驱词的索引;
[0014]索引应用模块,用于当接收到用户输入的搜索关键词时,基于所述索引实时同步显示原生提示词。
[0015]作为本专利技术进一步的方案:所述本地权重计算模块包括:
[0016]基准选取单元,用于选取某一目标文本单元作为基准单元;
[0017]词频计算单元,用于计算原生关键词在基准单元中的词频;
[0018]指数计算单元,用于计算原生关键词在其他目标文本单元中的逆文本频率指数;所述逆文本频率指数为分布在全部目标文本单元中的次数的倒数;
[0019]第一计算执行单元,用于将所述词频与所述逆文本频率指数输入预设的计算函数,得到原生关键词相对于基准单元的本地权重;
[0020]其中,所述本地权重与词频呈正比,所述本地权重与逆文本频率指数呈反比。
[0021]作为本专利技术进一步的方案:所述全局权重计算模块包括:
[0022]第一统计单元,用于统计所有目标文本单元的原生关键词,得到全部原生关键词集合;
[0023]第二统计单元,用于依次选取原生关键词,获取并统计原生关键词所在的目标文本单元及其本地权重,得到本地权重集合;
[0024]第二计算执行单元,用于基于本地权重集合计算该原生关键词的全局权重;计算函数为:
[0025]GW=F(LW,LWN,LW
k
,LWN
k
);
[0026]式中,GW为全局权重,LW
k
为原生关键词K对应的本地权重集合;LWN
k
为集合LW
k
的元素数量;所述LW为所有集合LW
k
的集合;所述LWN为所有LWN
k
的集合。
[0027]作为本专利技术进一步的方案:所述前驱词分析模块包括:
[0028]词集建立单元,用于依次获取原生关键词的前驱词,建立前驱词子集合;
[0029]并集计算单元,用于计算前驱词子集合的并集,得到前驱词集合;
[0030]遍历查询单元,用于遍历前驱词集合,查询每个前驱词的全部原生关键词,得到原生关键词集合。
[0031]作为本专利技术进一步的方案:所述索引建立模块包括:
[0032]数据读取单元,用于读取并遍历前驱词集合,读取前驱词的原生关键词集合;
[0033]元组建立单元,用于查询原生关键词集合中每个原生关键词的全局权重,建立元组;所述元组包含原生关键词及其全局权重;
[0034]降序排列单元,用于根据全局权重对元组进行降序排列,得到降序列表;
[0035]数据插入单元,用于向降序列表中插入对应的前驱词,得到索引。
[0036]作为本专利技术进一步的方案:所述索引应用模块包括:
[0037]存储单元,用于存储含有前驱词的索引;所述索引包括全部前驱词集合、原生关键词降序列表、所述列表包含全部原生关键词及其对应的全局权重值;
[0038]输入接收单元,用于实时接收用户输入的搜索关键词;
[0039]匹配单元,用于将搜索关键词与索引中的全部前驱词集合进行匹配,得到目标索引;
[0040]同步显示单元,用于同步显示目标索引中的原生关键词降序列表。
[0041]本专利技术技术方案还提供了一种跟随搜索关键词的输入同步显示原生提示词的方法,所述方法包括:
[0042]根据预设的关键词提取算法依次获取目标文本单元的原生关键词;
[0043]根据预设的权重算法计算各个原生关键词的本地权重;
[0044]统计所有目标文本单元的原生关键词,基于本地权重计算全局权重;
[0045]获取并统计每个原生关键词的前驱词,建立每个前驱词的原生关键词集合;
[0046]基于原生关键词集合及其全局权重建立每个前驱词的索引;
[0047]当接收到用户输入的搜索关键词时,基于所述索引实时同步显示原生提示词。
[0048]与现有技术相比,本专利技术的有益效果是:本专利技术计算各个关键词相对于各个文本单元的本地权重,统计本地权重,计算全局权重;以关键词为基础构建前驱词集合,然后再以前驱词为基准,查询包含该前驱词的所有关键词及其全局权重,基于全局权重对关键词进行降序排列,即可得到适应用于不同输入的提示词同步显示索引,搜索精准度极高。
附图说明
[0049]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例。
[0050]图1为原生关键词K
k
的本地权重的排序示意图。
[0051]图2为全部原生关键词集合K的示意图。
[0052]图3为原生关键词K
k
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种跟随搜索关键词的输入同步显示原生提示词的系统,其特征在于,所述系统包括:关键词提取模块,用于根据预设的关键词提取算法依次获取目标文本单元的原生关键词;本地权重计算模块,用于根据预设的权重算法计算各个原生关键词的本地权重;全局权重计算模块,用于统计所有目标文本单元的原生关键词,基于本地权重计算全局权重;前驱词分析模块,用于获取并统计每个原生关键词的前驱词,建立每个前驱词的原生关键词集合;索引建立模块,用于基于原生关键词集合及其全局权重建立每个前驱词的索引;索引应用模块,用于当接收到用户输入的搜索关键词时,基于所述索引实时同步显示原生提示词。2.根据权利要求1所述的跟随搜索关键词的输入同步显示原生提示词的系统,其特征在于,所述本地权重计算模块包括:基准选取单元,用于选取某一目标文本单元作为基准单元;词频计算单元,用于计算原生关键词在基准单元中的词频;指数计算单元,用于计算原生关键词在其他目标文本单元中的逆文本频率指数;所述逆文本频率指数为分布在全部目标文本单元中的次数的倒数;第一计算执行单元,用于将所述词频与所述逆文本频率指数输入预设的计算函数,得到原生关键词相对于基准单元的本地权重;其中,所述本地权重与词频呈正比,所述本地权重与逆文本频率指数呈反比。3.根据权利要求1所述的跟随搜索关键词的输入同步显示原生提示词的系统,其特征在于,所述全局权重计算模块包括:第一统计单元,用于统计所有目标文本单元的原生关键词,得到全部原生关键词集合;第二统计单元,用于依次选取原生关键词,获取并统计原生关键词所在的目标文本单元及其本地权重,得到本地权重集合;第二计算执行单元,用于基于本地权重集合计算该原生关键词的全局权重;计算函数为:GW=F(LW,LWN,LW
k
,LWN
k
);式中,GW为全局权重,LW
k
为原生关键词K对应的本地权重集合;LWN
k
为集合LW
k
的元素数...
【专利技术属性】
技术研发人员:刘宏,
申请(专利权)人:刘宏,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。