System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于机器学习的网页搜索结果排序调整方法及系统技术方案_技高网

基于机器学习的网页搜索结果排序调整方法及系统技术方案

技术编号:44901062 阅读:5 留言:0更新日期:2025-04-08 18:48
本发明专利技术涉及基于机器学习的网页搜索结果排序调整方法及系统,方法包括:构建网页对应的数据集;基于历史操作信息更新网页的数据集;获取用户当前搜索信息;获取用户当前搜索信息与网页数据集信息的语义相似度,基于语义相似度调整网页排序,得到第一排序;基于用户模型和大众模型调整第一排序,得到第二排序;基于用户的历史搜索信息与当前搜索信息的语义相似度,调整第二排序,得到第三排序。本发明专利技术充分考虑了用户对网页的历史操作情况,将用户的操作情况与搜索信息匹配,并基于搜索信息更新网页数据集信息,充分体现了用户行为在搜索结果中的参与性。

【技术实现步骤摘要】

本专利技术涉及网页搜索,具体涉及基于机器学习的网页搜索结果排序调整方法及系统


技术介绍

1、各类搜索引擎在网络应用中具有重要的价值,用户可以基于引擎提供的搜索功能,获取自身需要的信息。

2、面对海量的网络资源,不同的服务器给出了不同的搜索方法,使之能够给用户提供准确的信息;服务器从用户的搜索信息中提取出所需信息,再基于各自不同的策略、算法等,从海量的网络资源中筛选出与搜索信息相对应的资源。

3、然而,目前的服务器提供的筛选方法及网页排序方法等,大多都是固定不变的,针对同一个搜索信息,其提供的排序结果也是一成不变的;无法基于用户搜索习惯的变化适应性调整搜索策略。

4、另外,针对同样的信息需求,不同的用户的搜索策略也是不一样的,用户之间的搜索能力相差也较大,而服务器无法平衡用户在搜索上的能力及策略的不同,无法为用户智能性拓展、匹配搜索策略和结果。


技术实现思路

1、为解决已有技术存在的不足,本专利技术提供了一种基于机器学习的网页搜索结果排序调整方法,包括如下步骤:

2、s1:构建网页对应的数据集,数据集中存储有:

3、网页的分类标签;

4、至少一个关键词集合及每个关键词集合的总点击次数、总浏览时长以及与网页的匹配权重;

5、所有关键词集合中每个关键词的数量标识;

6、s2:基于历史操作信息更新各关键词集合的总点击次数、总浏览时长、与网页的匹配权重,以及各关键词集合中各关键词的数量标识;p>

7、s3:获取用户当前搜索信息;

8、s4:获取用户当前搜索信息与网页数据集信息的语义相似度,基于语义相似度调整网页排序,得到第一排序;

9、s5:基于用户模型和大众模型调整第一排序,得到第二排序;

10、s6:基于用户的历史搜索信息与当前搜索信息的语义相似度,调整第二排序,得到第三排序。

11、其中,所述s1中,构建数据集时,基于网页的内容信息初始化至少一个关键词集合,并为每个关键词集合初始化若干个关键词、一个总点击次数、一个总浏览时长以及一个匹配权重,每个关键词集合的初始总点击次数为0、初始总浏览时长为0、初始匹配权重相同;

12、每个关键词集合中的所有关键词两两之间匹配度均大于第一预定值;

13、为每个关键词集合中的关键词初始化一个数量标识,数量标识的初始值为0。

14、其中,基于历史操作信息更新各关键词集合的匹配权重、总点击次数、总浏览时长,以及各关键词集合中各关键词的数量标识,包括如下步骤:

15、s21:获取对网页执行点击操作且在网页上停留时间超过第一预定时长的搜索操作所对应的搜索信息;

16、s22:从搜索信息中提取所有的关键词,作为待匹配关键词;

17、针对每一个待匹配关键词执行下述操作:

18、s23:遍历网页的所有关键词集合,针对每一个关键词集合,从中获取一个关键词,作为已有关键词;

19、s24:获取待匹配关键词与已有关键词的匹配度,判断是否存在达到第一预定值的已有关键词:

20、若存在,判断达到第一预定值的已有关键词所在的关键词集合中是否存在与待匹配关键词一致的关键词:若存在一致,则更新与待匹配关键词一致的关键词的数量标识,使其值加1;若不存在一致,则将待匹配关键词增加到达到第一预定值的已有关键词所在的关键词集合中,并初始化其数量标识为1;同时,更新已有关键词所在关键词集合的总点击次数、总浏览时长及匹配权重;

21、若不存在,则新建一个关键词集合,并将待匹配关键词加到新建的关键词集合中,初始化其数量标识为1,并为新建的关键词集合初始化一个匹配权重、总点击次数、总浏览时长,并更新该匹配权重。

22、其中,通过如下步骤更新已有关键词所在关键词集合的匹配权重;

23、q=qinital+(x1+time/n)/x2+(y1+n)/y2;

24、其中,q为匹配权重,qinital为初始化匹配权重,x1、x2、y1及y2为调整因子,time为总浏览时长,n为总点击次数;

25、在存在达到第一预定值的已有关键词时,将该已有关键词所属的关键词集合的总点击次数加1,总浏览时长加上s21中获取的停留时间。

26、其中,遍历网页的所有关键词集合时,针对每一个关键词集合,从中获取数量标识最大的关键词作为已有关键词;

27、若某个关键词集合中存在多个最大数量标识的关键词,则随机选择一个作为已有关键词。

28、其中,通过如下方式获取待匹配关键词与已有关键词的匹配度:基于bow模型对待匹配关键词与已有关键词进行序列转换,分别得到第一向量和第二向量,计算第一向量和第二向量的内积,内积值即为匹配度。

29、其中,通过如下步骤获取用户当前搜索信息与网页数据集信息的语义相似度,基于语义相似度调整网页搜索排序,得到第一排序:

30、s41:从当前搜索信息中提取关键词;

31、s42:获取s41中所有关键词的词向量之和的均值,作为第一词向量;

32、s43:从网页的所有关键词集合中各获取一个关键词;

33、s44:通过下述公式得到第二词向量:;

34、其中,c为第二词向量,m为s43中提取的关键词总个数,为s43中提取的关键词的词向量;为词向量的权重值,该权重值为关键词所属的关键词集合对应的匹配权重。

35、其中,s43中,从网页的所有关键词集合中各获取一个数量标识最大的关键词,若某个关键词集合存在多个最大数量标识的关键词,则随机选择一个。

36、本专利技术另外提供了一种基于机器学习的网页搜索结果排序调整系统,包括:

37、客户端,用于接收用户的搜索信息;

38、服务器,与客户端连接,用于基于用户的搜索信息,调整网页搜索结果排序;

39、服务器中针对各网页存储有数据集,每个网页的数据集中存储有:

40、网页的分类标签;

41、至少一个关键词集合及每个关键词集合的总点击次数、总浏览时长以及与网页的匹配权重;

42、所有关键词集合中每个关键词的数量标识;

43、服务器基于历史操作信息更新各关键词集合的总点击次数、总浏览时长、与网页的匹配权重,以及各关键词集合中各关键词的数量标识;

44、服务器对网页搜索结果排序进行调整时,获取用户当前搜索信息与网页数据集信息的语义相似度,基于语义相似度调整网页排序,得到第一排序。

45、其中,服务器对网页搜索结果排序进行调整时,还包括:

46、基于用户模型和大众模型调整第一排序,得到第二排序;

47、基于用户的历史搜索信息与当前搜索信息的语义相似度,调整第二排序,得到第三排序。

48、本专利技术在对网页进行排序时,充分考虑了用户对网页的历史操本文档来自技高网...

【技术保护点】

1.基于机器学习的网页搜索结果排序调整方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:

3.如权利要求2所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:基于历史操作信息更新各关键词集合的匹配权重、总点击次数、总浏览时长,以及各关键词集合中各关键词的数量标识,包括如下步骤:

4.如权利要求3所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:

5.如权利要求3所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:遍历网页的所有关键词集合时,针对每一个关键词集合,从中获取数量标识最大的关键词作为已有关键词;

6.如权利要求3所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:通过如下方式获取待匹配关键词与已有关键词的匹配度:基于BOW模型对待匹配关键词与已有关键词进行序列转换,分别得到第一向量和第二向量,计算第一向量和第二向量的内积,内积值即为匹配度。

7.如权利要求1所述的基于机器学习的网页搜索结果排序调整方法,其特征在于,通过如下步骤获取用户当前搜索信息与网页数据集信息的语义相似度,基于语义相似度调整网页搜索排序,得到第一排序:

8.如权利要求7所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:S43中,从网页的所有关键词集合中各获取一个数量标识最大的关键词,若某个关键词集合存在多个最大数量标识的关键词,则随机选择一个。

9.基于权利要求1-8中任一项所述的基于机器学习的网页搜索结果排序调整方法的调整系统,其特征在于,包括:

10.如权利要求9所述的基于机器学习的网页搜索结果排序调整方法的调整系统,其特征在于,服务器对网页搜索结果排序进行调整时,还包括:

...

【技术特征摘要】

1.基于机器学习的网页搜索结果排序调整方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:

3.如权利要求2所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:基于历史操作信息更新各关键词集合的匹配权重、总点击次数、总浏览时长,以及各关键词集合中各关键词的数量标识,包括如下步骤:

4.如权利要求3所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:

5.如权利要求3所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:遍历网页的所有关键词集合时,针对每一个关键词集合,从中获取数量标识最大的关键词作为已有关键词;

6.如权利要求3所述的基于机器学习的网页搜索结果排序调整方法,其特征在于:通过如下方式获取待匹配关键词与已有关键词的匹配度:基于bow模型对...

【专利技术属性】
技术研发人员:李嬴胤车明
申请(专利权)人:北京热源汇盈网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1