数据搜索处理方法及系统技术方案

技术编号:11590390 阅读:75 留言:0更新日期:2015-06-10 23:07
本申请涉及一种数据搜索处理方法及系统。该方法包括接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词;通过统计所述查询词对应的搜索结果中的数据对象上发生的历史操作信息,选取数据对象的一项属性作为指定属性生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型;由此可以利用所述概率分布模型,计算当前用户发出的搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率以调整搜索结果中的数据对象的输出排序。从而改善数据搜索的展示处理,提高搜索到的数据对象排序展示的合理性以提供更准确的搜索结果,进而降低用户网络搜索访问的风险、提升搜索平台的安全性、可信度。

【技术实现步骤摘要】

本申请涉及数据搜索领域,更具体地涉及一种数据搜索处理方法及系统
技术介绍
随着互联网基础设施不断完善和计算机网络技术的不断普及,在线网络搜索各类特定的数据信息逐渐成为普通网民最常用的一种方式。当数据量非常庞大时,用户可以在搜索引擎的用户界面上点击选择类目、或输入搜索查询词等,由搜索引擎迅速找到自己想要的数据对象。在搜索引擎的用户界面上,用户输入关键词或者选择类目,搜索引擎会返回搜索到的包含一个或多个数据对象(搜索结果)的展示列表。通常,每个数据对象的展示信息中可以包括数据对象的一个或多个属性及其属性值以及其他参数等信息。当搜索引擎搜索到数据对象后,可以依据数据对象的各个属性及属性值,对数据对象进行排序和展示。例如:数据对象可以包括身份标识ID、图片、描述、标号等属性,以及及对应的内容,即属性值,如:ID的具体编号、具体的图片内容、描述的具体内容和字数、标号大小等。由此,搜索引擎可以根据图片多少、描述字数多少或者标号大小等对数据对象进行排序,并展示数据对象的图片、描述、标号。通常,在展示出来的数据对象一个或多个属性的属性值中,往往有一个或几个属性对用户的下一步的操作处理影响较大。比如,在期末考试成绩搜索引擎中,用户会对搜索到的某个学生的总成绩这一属性更关注。又比如,在商品搜索引擎中,用户往往会对搜索得到某个商品对象的价格给予较多的关注。当用户通过商品搜索引擎搜索得到商品对象的价格高低(属性值)超出了真实的价格范围时,用户很可能会对搜索结果产生质疑,从而放弃对搜索结果的操作。尤其当一个网络搜索平台中出现大量这样的搜索结果或者经常出现这样的搜索结果,可能引发用户对当前搜索平台的安全性、可信度等产生质疑等。尤其对于数据对象不是来自单一的、经过可信度和安全性验证的提供方提供给搜索平台的情形,则很可能给用户造成数据对象的不真实、非法、甚至网络数据的安全隐患(如提供虚假的属性值,引诱用户选择该数据对象而导致恶意程序的攻击)等问题。另外,现有技术中,为解决数据对象的某些属性值的失真,有的网络搜索平台通过人工对属性值进行挖掘整理再展示给用户,但很难确定这种整理的合理性;有的网络搜索平台通过人工审核再展示给用户,但对于海量的数据,这种方式难度高且效率低。
技术实现思路
针对上述现有技术的缺陷,本申请提供改进后的一种数据搜索处理方法及系统,以解决改善数据搜索的展示处理,提高搜索到的数据对象排序展示的合理性以提供更准确的搜索结果,进而可以降低用户网络搜索访问的风险的问题,以及进一步解决提升搜索平台的安全性、可信度的问题。根据本申请的一个方面,提供一种数据搜索处理方法,包括:接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词;统计所述查询词对应的搜索结果中的数据对象上发生的历史操作信息;选取所述数据对象的一项属性作为指定属性,生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型;利用所述概率分布模型,计算当前用户发出的搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率;使用所述概率调整搜索结果中的数据对象的输出排序。根据本申请的另一个方面,提供一种数据搜索处理系统,包括:搜索前端、日志收集器、数据分析平台、数据存储系统、搜索引擎;其中,搜索前端接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词,并转发当前用户发出的搜索请求给查询分析器;日志收集器,收集用户在查询词对应的搜索结果中的数据对象上的历史操作信息;数据分析平台,以数据对象的一项属性作为指定属性,利用存储的每一查询词对应的搜索结果中的数据对象上的历史操作信息,生成与该查询词对应的历史操作信息涉及的数据对象在该指定属性上的属性值的概率分布模型;搜索引擎,根据该当前用户发出的搜索请求执行对应获取的查询词的搜索,并利用该概率分布模型,计算该查询词的搜索结果中的每一数据对象在指定属性上的属性值对应的概率,并使用所述概率调整搜索结果中的数据对象的输出排序。根据本申请的又一个方面,提供一种数据搜索处理方法,包括:收集用户在各查询词对应的搜索结果中的数据对象上的历史操作信息;以数据对象的一项属性作为指定属性,分别利用每一查询词对应的搜索结果中的数据对象上的历史操作信息建立所述数据对象在指定属性上的属性值的概率分布模型,并记录该查词与概率分布模型对应关系;接收当前用户发出的搜索请求,获取所述搜索请求中包含的查询词;根据记录的查询词与概率分布模型的对应关系,确定所述搜索请求中的查询词对应的概率分布模型;使用所确定的概率分布模型计算所述搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率;使用至少所述概率调整所述搜索请求对应的搜索结果中的数据对象的排序。本申请的方法及系统,对于能够搜索来自各种内容提供方的、非全部经过数据验证的网络搜索平台来说,可以有效降低用户访问到非法数据对象、受到恶意数据攻击的风险,还能保障搜索平台的安全性、可信度,进而获取用户对平台的信任感。通过分析海量用户的实际搜索行为,对每个搜索词下大部分合理的属性值进行数学建模,并在数据对象排序展示的环节把属性值的合理性作为参考,使得不合理(非法、恶意)的数据对象展示排前的机会大大减少。进一步地,使用户通过网络搜索平台提交搜索请求时,能自动获取当前搜索意图下的合理属性值作为参考,即搜索结果的展示考虑了数据对象的属性值的合理性,从而打压不合理的数据对象避免其被提供给用户,改善用户的搜索体验,促进搜索平台的良性发展。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为依据本申请的数据搜索处理方法的一实施例的流程图;图2为依据本申请的方法中关于生成模型参数以及获得对应查询词的模型参数的一实施例的流程图;图3为依据本申请的数据搜索处理系统的一实施例的结构图;以及图4为依据本申请的方法中关于搜索引擎计算排序分的一个实施例示意图;图5为依据本申请的数据搜索处理装置的一实施例的示意图。具体实施方式本申请的主要思想在于,通过分析在海量用户提交的海量的搜索请求中,每个提交的搜索请求所涉及的搜索词下的大部分/大多数用户,对依据该搜索词获得的搜索结果进行的实际操作行为,构建与查询词相对应的参考用的概率分布模型参数(概率分布模本文档来自技高网
...

【技术保护点】
一种数据搜索处理方法,其特征在于,包括:接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词;统计所述查询词对应的搜索结果中的数据对象上发生的历史操作信息;选取所述数据对象的一项属性作为指定属性,生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型;利用所述概率分布模型,计算当前用户发出的搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率;使用所述概率调整搜索结果中的数据对象的输出排序。

【技术特征摘要】
1.一种数据搜索处理方法,其特征在于,包括:
接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词;
统计所述查询词对应的搜索结果中的数据对象上发生的历史操作信息;
选取所述数据对象的一项属性作为指定属性,生成所述查询词对应的历
史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型;
利用所述概率分布模型,计算当前用户发出的搜索请求对应的搜索结果
中的每一数据对象在指定属性上的属性值对应的概率;
使用所述概率调整搜索结果中的数据对象的输出排序。
2.根据权利要求1所述的方法,其特征在于,选取所述数据对象的一
项属性作为指定属性,生成所述查询词对应的历史操作信息涉及的数据对象
在所述指定属性上的属性值的概率分布模型,包括:
周期性地对收集的所述历史操作信息,进行预处理,确定历史操作信息
中的查询词以及对应的数据对象的指定属性上的属性值,并形成查询词与该
查询词相应的历史操作信息涉及的数据对象在该指定属性上的属性值的预定
格式记录;
根据预定格式记录中的属性值,利用概率分布模型拟合算法,生成与预
定格式记录中的属性值概率分布模型,并以键值对方式存储该查询词和所述
概率分布模型的对应关系。
3.根据权利要求1-2之一所述的方法,其特征在于,使用所述概率调整
搜索结果中的数据对象的输出排序,包括:
以每个数据对象的所述概率作为排序逻辑的分值计算中的特征值,计算
每个数据对象的排序分值,将搜索结果中的数据对象按照排序分值所指示的
先后次序,显示输出到当前发出搜索请求的用户。
4.根据权利要求1所述的方法,其特征在于,所述历史操作信息包括
用户操作涉及的数据对象对应的查询词及该数据对象在指定属性上的属性值。
5.根据权利要求4所述的方法,其特征在于,所述概率分布模型为双
高斯概率模型,所述生成所述查询词对应的历史操作信息涉及的数据对象在
所述指定属性上的属性值的概率分布模型包括:利用所述查询词对应的历史
操作信息对所述概率分布模型进行拟合,确定所述概率分布模型的模型参数。
6.一种数据搜索处理系统,其特征在于,包括:搜索前端、日志收集
器、数据分析平台、数据存储系统、搜索引擎;其中,
搜索前端接收当前用户发出的搜索请求以获取所述搜索请求中包含的
查询词,并转发当前用户发出的搜索请求给查询分析器;
日志收集器,收集用户在查询词对应的搜索结果中的数据对象上的历史
操作信息,;
数据分析平台,以数据对象的一项属性作为指定属性,利用存储的...

【专利技术属性】
技术研发人员:王勇陈曦林建国唐海红曾安祥曾晓一潘春香王义王波顾洋徐盈辉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1