一种智能化对搜索结果和搜索引擎进行优化的系统技术方案

技术编号:30301392 阅读:26 留言:0更新日期:2021-10-09 22:32
本发明专利技术属于互联网技术技术领域,公开了一种智能化对搜索结果和搜索引擎进行优化的系统,包括请求获取模块、关键词提取模块、检索模块、行为检测模块、存储模块、行为分析模块、聚类优化模块和排序模块。本发明专利技术通过提取的关键词进行对搜索需求描述信息进行检索,能够提高搜索结果的准确性,减少过多的与用户所要搜索的内容无关的搜索结果,便于用户浏览;通过聚类优化模块可以基于用户行为分析的类间排序和类中对象排序,可以通过分析用户以往的行为得出用户兴趣特征模式,将聚类中心与用户兴趣所属的类相比较,将用户感兴趣的类别所属的聚类排列在最前面,其他聚类结果随着与用户兴趣程度的减少依次排列,从而有效提高用户的浏览体验度。体验度。体验度。

【技术实现步骤摘要】
一种智能化对搜索结果和搜索引擎进行优化的系统


[0001]本专利技术属于互联网
,尤其涉及一种智能化对搜索结果和搜索引擎 进行优化的系统。

技术介绍

[0002]目前:随着信息技术的不断发展,互联网已经成为人们生活当中的重要组 成部分。人们在需要寻找各种信息时,只需要打开网页,在搜索引擎当中输入 相关的关键词就能进行相关信息的搜集,在较短的时间内搜索到自己所需要的 信息。随着互联网技术的不断发展以及信息的不断膨胀,人们对于网络信息的 使用需求越来越高,搜索引擎成为人们获取网络信息的重要工具。用户输入搜 索需求描述信息,例如关键字(query)或图像,搜索引擎根据搜索需求描述信息 向用户返回搜索结果。
[0003]但是用户在利用搜索引擎进行信息搜索时,当输入词语过多时,容易导致 搜索引擎输出过多的与用户所要搜索的内容无关的搜索结果。而且,现有输出 的搜索结果不能根据用户的兴趣度进行排序,需要用户进行频繁翻页,降低了 使用体验。
[0004]通过上述分析,现有技术存在的问题及缺陷为:
[0005](1)当输入词语过多时,搜索引擎会输出过多的与用户所要搜索的内容无 关的搜索结果。
[0006](2)现有输出的搜索结果不能根据用户的兴趣度进行排序,需要用户进行 频繁翻页,降低了使用体验。

技术实现思路

[0007]针对现有技术存在的问题,本专利技术提供了一种智能化对搜索结果和搜索引 擎进行优化的系统。
[0008]本专利技术是这样实现的,一种智能化对搜索结果和搜索引擎进行优化的系统 包括:
[0009]请求获取模块、关键词提取模块、检索模块、行为检测模块、存储模块、 行为分析模块、聚类优化模块和排序模块;
[0010]所述请求获取模块用于获取用户的搜索需求描述信息,根据搜索需求描述 信息确定至少一种搜索需求;
[0011]所述关键词提取模块用于对搜索需求描述信息中的关键词进行提取;
[0012]所述检索模块用于在互联网网页中对关键词提取模块提取的关键词进行检 索;
[0013]所述行为检测模块用于根据用户的历史输入信息和搜索信息,对用户的兴 趣爱好、用户的领域、用户的搜索倾向进行归纳总结,对用户行为进行检测学 习;
[0014]所述存储模块用于对用户的历史行为信息进行存储,通过存储的历史行为 信息构建信息数据库,用于后续的行为分析;
[0015]所述行为分析模块用于对存储模块内存储的历史行为信息进行提取分析;
[0016]所述聚类优化模块用于基于聚类算法和行为分析结果对搜索结果进行优 化;
[0017]所述排序模块用于根据优化结果对搜索结果进行排序。
[0018]进一步,所述聚类优化模块用于基于聚类算法和行为分析结果对搜索结果 进行优化,具体包括:
[0019](1)首先给定类别数c及模糊程度数m,用值在0、1间的随机数初始化 隶属矩阵U,使其满足式:
[0020]的约束条件;其中c为给定的类别数,U
ij
表示第i个 网页属于第j类的隶属程度;
[0021](2)用式:
[0022][0023]计算c个聚类中心C
i
,i=1,

,c;
[0024](3)根据式:
[0025][0026]计算目标函数;
[0027](4)用式:
[0028][0029]计算新的U矩阵,返回步骤(2);
[0030](5)模糊C均值聚类算法的输出是c个聚类中心点向量和c*n的一个模糊 划分矩阵,所述模糊划分矩阵表示的是每个网页样本属于每个类的隶属度,根 据此划分矩阵按照模糊集合中的最大隶属原则就能够确定每个网页样本归为哪 类。
[0031]进一步,步骤(3)中,如果目标函数小于某个确定的阈值,或它相对上次 目标函数值的改变量小于某个阈值,则停此转向步骤(5)。
[0032]进一步,所述关键词提取模块采用的提取方法具体包括:
[0033]对搜索需求描述信息的所有语句信息进行分词操作,以得到语句信息的词 语单元;
[0034]获取词语单元的词语特征、词语单元在对应语句信息中的语句特征、以及 所述词语单元在搜索需求描述信息中的文本特征;
[0035]根据获取的词语特征、语句特征和文本特征,基于机器学习算法使用设定 数量的分析语句创建机器学习模型;
[0036]基于机器学习模型使用每个语句信息中的词语单元的词语特征、语句特征 以及文本特征,对每个搜索需求描述信息进行关键词提取操作。
[0037]进一步,所述请求获取模块包括:
[0038]选择单元,用于展现搜索需求描述信息的优化信息,以供所述用户选择;
[0039]获取单元,用于获取用户的选择指令,所述选择指令指示用户选择的搜索 需求优化信息;
[0040]确定单元,用于根据所述选择指令,确定所述用户选择的搜索需求优化信 息。
[0041]进一步,所述行为分析模块采用的行为分析方法包括:
[0042]根据用户在网页上的浏览行为进行用户特征的统计测量,获取一系列特征 数据;
[0043]对统计测量信息进行分析,利用回归分析方法对其进行拟合;
[0044]分析拟合函数,通过计算得出总体特征的回归方程;
[0045]用相关系数法检验关系的显著性,确定回归方程的可靠性,得到行为分析 结果。
[0046]进一步,所述利用回归分析方法对其进行拟合采用的为多元线性回归模型, 公式为:
[0047]y=β0+β1x1+...+β
k
x
k

[0048]式中x1,x2…
,x
k
为k个变量;β0,...,β
k
为系数;ε是随机变量。
[0049]进一步,所述检索模块还包括用于对搜索结果进行结果去重的去重单元, 所述去重单元把提取出来的重复网址过滤掉,并整理数据,再将结果以HTML 的形式输出到用户浏览器。
[0050]进一步,所述去重单元判断重复结果的方法包括:
[0051]两个查询结果的URL完全相同,则判定为重复结果;
[0052]两个URL只是最后的文件名不同,其它部分相同,则判定为相同结果;
[0053]URL完全不同,但标题和摘要相同,则判定为相同结果。
[0054]进一步,所述去重单元判断重复结果的方法还包括:若两个查询结果的URL 完全不同,但标题和摘要相似,则判定为相同结果。
[0055]结合上述的所有技术方案,本专利技术所具备的优点及积极效果为:
[0056]本专利技术通过关键词提取模块对搜索需求描述信息中的关键词进行提取,通 过提取的关键词进行对搜索需求描述信息进行检索,能够提高搜索结果的准确 性,减少过多的与用户所要搜索的内容无关的搜索结果,便于用户浏览;通过 利用聚类优化模块基于聚类算法和行为分析本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能化对搜索结果和搜索引擎进行优化的系统,其特征在于,所述智能化对搜索结果和搜索引擎进行优化的系统包括:请求获取模块,用于获取用户的搜索需求描述信息,根据搜索需求描述信息确定至少一种搜索需求;关键词提取模块,用于对搜索需求描述信息中的关键词进行提取;检索模块,用于在互联网网页中对关键词提取模块提取的关键词进行检索;所述行为检测模块用于根据用户的历史输入信息和搜索信息,对用户的兴趣爱好、用户的领域、用户的搜索倾向进行归纳总结,对用户行为进行检测学习;存储模块,用于对用户的历史行为信息进行存储,通过存储的历史行为信息构建信息数据库,用于后续的行为分析;行为分析模块,用于对存储模块内存储的历史行为信息进行提取分析;聚类优化模块,用于基于聚类算法和行为分析结果对搜索结果进行优化;排序模块,用于根据优化结果对搜索结果进行排序。2.如权利要求1所述的智能化对搜索结果和搜索引擎进行优化的系统,其特征在于,所述聚类优化模块用于基于聚类算法和行为分析结果对搜索结果进行优化,具体包括:(1)首先给定类别数c及模糊程度数m,用值在0、1间的随机数初始化隶属矩阵U,使其满足式:的约束条件;其中c为给定的类别数,U
ij
表示第i个网页属于第j类的隶属程度;(2)用式:计算c个聚类中心C
i
,i=1,

,c;(3)根据式:计算目标函数;(4)用式:计算新的U矩阵,返回步骤(2);(5)模糊C均值聚类算法的输出是c个聚类中心点向量和c*n的一个模糊划分矩阵,所述模糊划分矩阵表示的是每个网页样本属于每个类的隶属度,根据此划分矩阵按照模糊集合
中的最大隶属原则就能够确定每个网页样本归为哪类。3.如权利要求1所述的智能化对搜索结果和搜索引擎进行优化的系统,其特征在于,步骤(3)中,如果目标函数小于某个确定的阈值,或它相对上次目标函数值的改变量小于某个阈值,则停此转向步骤(5)。4.如权利要求1所述的智能化对搜索结果和搜索引擎进行优化的系统,其特征在于,所述关键词提取模块采用的提取方法具体包括:对搜索需求描述信息的所有语句信息进行分词操作,以得到语句信息的词语单元;获取词语单元的词语特征、词语单元在对应语句信息中的语句特征、以及所述词语单元在搜索需求描述信息中的文本特征;根据...

【专利技术属性】
技术研发人员:姜伟
申请(专利权)人:杭州志卓科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1