本发明专利技术涉及一种确定PC网页与移动网页自适应关系的系统和方法,其中,该方法包括:提取移动网页的标题字段的至少一部分,作为第一字段;提取PC网页的标题字段的至少一部分,作为第二字段;基于所述第一字段和第二字段对移动网页和PC网页进行匹配;验证匹配成功的移动网页和PC网页分别对应的URL是否相同;如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。本发明专利技术的技术方案能够利用少量的PC网页和移动网页,准确地挖掘较全面的PC网页和移动网页的自适应对应关系,降低PC网页向移动网页转化过程中所花费的时间和资源。
【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种确定PC网页与移动网页自适应关系的系统和方法,其中,该方法包括:提取移动网页的标题字段的至少一部分,作为第一字段;提取PC网页的标题字段的至少一部分,作为第二字段;基于所述第一字段和第二字段对移动网页和PC网页进行匹配;验证匹配成功的移动网页和PC网页分别对应的URL是否相同;如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。本专利技术的技术方案能够利用少量的PC网页和移动网页,准确地挖掘较全面的PC网页和移动网页的自适应对应关系,降低PC网页向移动网页转化过程中所花费的时间和资源。【专利说明】一种确定PC网页与移动网页自适应关系的系统及方法
本专利技术涉及互联网
,具体而言,涉及一种确定PC网页与移动网页自适应关系的系统和一种确定PC网页与移动网页自适应关系的方法。
技术介绍
随着移动互联网产业的快速发展,越来越多的用户通过手机、PAD等移动设备上网越来越普遍。3G各类wap网站开始蓬勃发展,很多传统互联网网站都希望将自己原有的PC网页移植到移动互联网中,借助手机网络用户的增长,继续保持发展。但是这些移动设备和普通电脑不同,他们的屏幕相对于普通电脑的屏幕而言是非常小巧的,在普通电脑上可以显示的网页在移动设备上浏览起来用户体验并不好。 对于搜索引擎而言,当用户采用移动设备进行搜索时应该提供适合移动设备显示的移动网页。目前,一种方案是针对移动网页单独建立索引库,当用户采用移动设备进行搜索时,查询移动索引库并且提供移动网页。这种方案缺点是需要单独建索引库并且需要重新计算移动网页和用户搜索词query的相关性以及权重。另一种方案是利用移动UA(UserAgent,用户代理)模拟移动设备随机抓取大量的PC网页对应的url (Uniform ResourceLocator,统一资源定位符),渲染并解析返回的网页,如果为移动网页则为具有对应关系,挖掘上述移动网页和PC网页的对应关系(调研发现90%以上的移动网页在PC上有对应的PC网页),当用户用移动设备搜索时根据PC和移动网页的对应关系展现和PC相对应的移动网页,这种方案不需要单独创建移动索引库,并且在出展现结果时根据PC网页的相关性和权重直接平移到移动网页上,不需要重新计算。但是采用这种方案需要抓取大量的PC网页对应的url,而且选取哪些PC网页对应的url抓取是比较随机的,而很多站点只是部分PC网页有对应的移动网页,这可能造成真正有对应关系的PC网页在选取时可能选取不到导致对应关系挖掘不到,即使能够选取到可能选取的量比较少也无法形成规则。 PC网页和移动网页对应关系分为自适应和非自适应,自适应指的是当用户利用移动设备访问PC网页的时候站点自动返回给用户的是对应的移动网页,非自适应则不会。自适应又分为跳转和非跳转,跳转指的是当用户用移动设备访问PC网页对应的url时站点返回的移动网页对应的url和PC网页对应的url是不同的,非跳转指的是当用户用移动设备访问PC网页对应的url时站点返回的移动网页对应的url和PC网页对应的url从长相上看是完全一样的,只不过是内容不同。 如何提供一种确定PC网页与移动网页自适应关系的方法,能够准确地利用少量的PC网页和移动网页,挖掘较全面的PC网页和移动网页的自适应对应关系,降低PC网页向移动网页转化过程中所花费的时间和资源,成为目前急需解决的问题之一。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的确定PC网页与移动网页自适应关系的系统和相应的确定PC网页与移动网页自适应关系的方法。 根据本专利技术的一个方面,提供了一种确定PC网页与移动网页自适应关系的系统,该系统包括: 第一标题字段提取器,用于提取移动网页的标题字段的至少一部分,作为第一字段; 第二标题字段提取器,用于提取PC网页的标题字段的至少一部分,作为第二字段; 字段匹配器,用于根据所述第一字段和第二字段对移动网页和PC网页进行匹配; URL比较器,用于验证匹配成功的移动网页和PC网页分别对应的URL是否相同; 自适应关系确定器,在所述URL比较器判断相同的情况下,确定所述PC网页与所述移动网页存在自适应关系。 优选地,所述第一标题字段提取器,在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;所述第二标题字段提取器,在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。 优选地,所述字段匹配器进一步包括: 第一数字签名生成模块,用于根据所述第一字段,生成所述移动网页的数字签名,作为第一数字签名; 第二数字签名生成模块,用于根据所述第二字段,生成所述PC网页的数字签名,作为第二数字签名; 数字签名匹配模块,用于利用所述第一数字签名和第二数字签名对移动网页和PC网页进行匹配。 优选地,所述第一数字签名生成模块进一步包括: 第一分块单元,用于对所述第一字段进行分块处理; 第一频率统计单元,用于统计每个分块在所述移动网页所属网站中出现的频率; 第一分块选择单元,用于选择频率最低的分块作为所述移动网页的第一数字签名; 所述第二数字签名生成模块进一步包括: 第二分块单元,用于对所述第二字段进行分块处理; 第二频率统计单元,用于统计每个分块在所述PC网页所属网站中出现的频率; 第二分块选择单元,用于选择频率最低的分块作为所述PC网页的第二数字签名。 优选地,所述数字签名匹配模块进一步包括: 第一签名比较单元,用于比较所述第一数字签名和第二数字签名是否相同; 第一匹配判断单元,用于在签名比较单元确定所述第一数字签名和第二数字签名相同时,判断所述移动网页和PC网页匹配。 优选地,所述数字签名匹配模块进一步包括: 第二签名确定单元,用于确定所述第一数字签名和第二数字签名的相似度; 第二匹配判断单元,用于在相似度高于预定阈值的情况下,判断所述移动网页和PC网页匹配。 优选地,该系统还包括: 用户代理器,用于检测用户的终端类型是移动终端还是PC终端; 自适应判断器,用于判断是否存在与用户请求的PC网页具有所述自适应关系的移动网页; 移动网页推送器,用于在存在与用户请求的PC网页具有所述自适应关系的移动网页的情况下,为用户以非跳转的方式推送所述移动网页。 根据本专利技术的另一个方面,提供了一种确定PC网页与移动网页自适应关系的方法,该方法包括: 提取移动网页的标题字段的至少一部分,作为第一字段; 提取PC网页的标题字段的至少一部分,作为第二字段; 基于所述第一字段和第二字段对移动网页和PC网页进行匹配; 验证匹配成功的移动网页和PC网页分别对应的URL是否相同; 如果URL相同,则确定所述PC网页与所述移动网页存在自适应关系。 优选地,提取移动网页的标题字段的至少一部分具体为:在网页的源代码头部部分,根据预定标签提取移动网页的标题字段的至少一部分;提取PC网页的标题字段的至少一部分具体为:在网页的源代码头部部分,根据预定标签提取PC网页的标题字段的至少一部分。 优选地,根据所述第一字段和第二字段对移动网页和PC网页进行匹配,进一步包括: 本文档来自技高网...
【技术保护点】
一种确定PC网页与移动网页自适应关系的系统,包括:第一标题字段提取器,用于提取移动网页的标题字段的至少一部分,作为第一字段;第二标题字段提取器,用于提取PC网页的标题字段的至少一部分,作为第二字段;字段匹配器,用于根据所述第一字段和第二字段对移动网页和PC网页进行匹配;URL比较器,用于验证匹配成功的移动网页和PC网页分别对应的URL是否相同;自适应关系确定器,在所述URL比较器判断相同的情况下,确定所述PC网页与所述移动网页存在自适应关系。
【技术特征摘要】
【专利技术属性】
技术研发人员:王智广,张飞虎,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。