一种网页多重信息属性的标记方法技术

技术编号:38011597 阅读:11 留言:0更新日期:2023-06-30 10:32
本发明专利技术公开了一种网页多重信息属性的标记方法,涉及属性标记技术领域。为了解决现有技术中,通过定义网页多重信息属性识别模型及标记过程,实现对网页信息属性的标记,导致识别的局限性较高,无法灵活进行模型的更改与更新,适应性较差的问题;一种网页多重信息属性的标记方法,包括确定信息属性;信息标记整合;关联信息匹配;通过在开始标志内提取属性代码,进行属性代码的数值化处理,确定属性代码的属性阈值,确定HTML标志的信息属性,并基于HTML标志的信息属性进行修饰,从而方便、高效地对网页属性信息进行标记、提取与应用,根据建立的内容数据标记分布图与信息属性的关联关系,大幅提升了标记效率。大幅提升了标记效率。大幅提升了标记效率。

【技术实现步骤摘要】
一种网页多重信息属性的标记方法


[0001]本专利技术涉及属性标记
,特别涉及一种网页多重信息属性的标记方法。

技术介绍

[0002]网页是构成网站的基本元素,是承载各种网站应用的平台,根据企业希望向浏览者传递的信息(包括产品、服务、理念、文化),进行网站功能策划,然后进行的页面设计美化工作。作为企业对外宣传物料的其中一种,精美的网页设计,对于提升企业的互联网品牌形象至关重要。
[0003]网页是一个包含HTML标签的纯文本文件,是由标志和属性构成的。关于网页多重信息属性的标记,已有相关专利;比如公开号为CN104679804A的中国专利公开了一种网页多重属性的标记方法及其实现,通过提供网页多重信息属性标记处理的属性识别模块、属性配置模块和属性调用模块,主要从整体、系统角度解决对抓取网页的多重信息属性进行识别与存储、多方式标记以及对属性标记结果与过程进行灵活可重复调用的问题。该专利技术通过定义网页多重信息属性识别模型及标记过程,提出了一种统一的对网页多重信息属性进行标记的新方法,可以有效升网页信息属性标记处理的效率和准确率,从而为网页多重信息属性标记结果与过程在业务处理中的便捷重复调用奠定基础,能够有效提升需要处理网页多重信息属性业务系统的效率。
[0004]上述专利虽然方便、高效地对网页属性信息进行标记、提取与应用,但是实际使用过程中仍存在以下几点问题:
[0005]1、现有技术中,通过定义网页多重信息属性识别模型及标记过程,实现对网页信息属性的标记,导致识别的局限性较高,无法灵活进行模型的更改与更新,适应性较差;
[0006]2、现有技术中,无法根据现有的信息及信息属性进行关联信息的匹配与查询,造成信息无法共享,影响网页的可拓展性,降低网页的显示及其信息的有效性和及时性。

技术实现思路

[0007]本专利技术的目的在于提供一种网页多重信息属性的标记方法,通过确定HTML标志的信息属性,并基于HTML标志的信息属性进行修饰,从而方便、高效地对网页属性信息进行标记、提取与应用,根据建立的内容数据标记分布图与信息属性的关联关系,自动识别网页中数据的信息属性,大幅提升了标记效率,以解决上述
技术介绍
中提出的问题。
[0008]为实现上述目的,本专利技术提供如下技术方案:
[0009]一种网页多重信息属性的标记方法,包括以下步骤:
[0010]确定信息属性:获取网页中的HTML标志并进行识别提取,其中,所述HTML标志不少于一个且成对设置,包括开始标志和结束标志;
[0011]基于所述HTML标志的提取结果确定所述开始标志内的属性代码,并进行目标代码的数值化处理,确定所述目标代码的属性阈值,确定所述HTML标志的信息属性;
[0012]信息标记整合:获取所述HTML标志的信息属性,按照所述信息属性对所述HTML标
志引用的内容数据进行划分,得到内容数据分布图;
[0013]对所述内容数据分布图进行关键词提取,将提取的关键词转换为词向量,基于所述词向量进行坐标标记,得到数据信息标记分布图,并将数据进行整合生成数据集;
[0014]关联信息匹配:基于关键词确定与所述数据集相关联的一个或更多个排序因子,来确定所述内容数据标记分布图与信息属性的关联关系,基于所述排序因子根据所述关联关系得到对应的内容数据及标记排序。
[0015]进一步的,所述HTML标志,用于引用文字、图片的文档部件;
[0016]所述属性,用于标志的选项并放在开始标志内,在所述标志中进行颜色、对齐方式、高度和宽度的修饰。
[0017]进一步的,所述进行目标代码的数值化处理,确定所述目标代码的属性阈值,具体为:
[0018]对所述属性代码进行解析,确定目标代码数据,对所述目标代码数据根据代码类别划分成多个代码分块;
[0019]获取每个代码分块的修饰类型并进行数值化处理,得到每个代码分块的类型值,根据所述类型值确定对应的对象数据的提取方式;
[0020]基于所述提取方式获取每一代码分块对应的对象数据的属性特征,同时基于所述属性特征在所述HTML标志中的修饰类型,生成所述HTML标志的信息属性。
[0021]进一步的,所述获取每一代码分块对应的对象数据的属性特征,具体为:
[0022]将所述对象数据的属性特征储存在云网络中的存储节点上,并基于存储节点在存储数据时的使用频率,从高到低进行排列,建立排队队列;
[0023]根据所述排队队列得到若干个匹配组,确定每个代码分块的使用强度,根据所述每个代码分块的使用强度将若干个匹配组来进行对象数据的属性特征的匹配。
[0024]进一步地,将所述对象数据的属性特征储存在云网络中的存储节点上,并基于存储节点在存储数据时的使用频率,从高到低进行排列,建立排队队列,包括
[0025]提取所述对象数据的属性特征,并将所述对象数据的属性特征上传至云网络中存储节点上;
[0026]提取所述存储节点的在存储数据时的使用频率,判断所述使用频率是否存在相同的频率数值;
[0027]当所述使用频率不存在相同的频率数值时,则按照使用频率从高到低进行排列,建立排队队列;
[0028]当所述使用频率存在相同的频率数值时,则提取所述频率数值相同的存储节点个数;
[0029]当所述存储节点个数没有超过预设的个数阈值时,则将所述存储节点整合为一个存储节点集合,将所述存储节点集合作为一个存储节点,按照使用频率从高到低进行排列,建立排队队列;
[0030]当所述存储节点个数超过预设的个数阈值时,则对所述存储节点进行分组集合,获得多个存储节点集合,将所述多个存储节点集合作为并列存储节点,按照使用频率从高到低进行排列,建立排队队列;
[0031]其中,所述个数阈值通过如下公式获取:
[0032][0033]其中,M表示个数阈值,M为向上取整;N表示存储节点的总个数;C表示单位时间内存储节点的存储触发总次数;k表示单位时间的个数;C
i
表示第i个单位时间对应的存储节点的存储触发总次数;N
i
表示第i个单位时间内的被触发的存储节点的个数;M0表示基准个数数值,M0的取值范围为[0.15N,0.24N]。
[0034]进一步地,当所述存储节点个数超过预设的个数阈值时,则对所述存储节点进行分组集合,获得多个存储节点集合,包括:
[0035]当所述存储节点个数超过预设的个数阈值,但未超过个数条件上限时,则按照两个N/2,或,1+N/2和N/2的方式形成两个存储节点集合,将所述两个存储节点集合作为并列存储节点,按照使用频率从高到低进行排列,建立排队队列;
[0036]当所述所述存储节点个数超过预设的个数阈值,且,超过个数条件上限时,按照所述个数阈值对应数量进行节点集合分组,当分组后余下的不满所述个数阈值对应数量的存储节点个数,设置为单独的一个集合分组;
[0037]其中,所述超过个数条件上限通过如下公式获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页多重信息属性的标记方法,其特征在于:包括以下步骤:确定信息属性:获取网页中的HTML标志并进行识别提取,其中,所述HTML标志不少于一个且成对设置,包括开始标志和结束标志;基于所述HTML标志的提取结果确定所述开始标志内的属性代码,并进行目标代码的数值化处理,确定所述目标代码的属性阈值,确定所述HTML标志的信息属性;信息标记整合:获取所述HTML标志的信息属性,按照所述信息属性对所述HTML标志引用的内容数据进行划分,得到内容数据分布图;对所述内容数据分布图进行关键词提取,将提取的关键词转换为词向量,基于所述词向量进行坐标标记,得到数据信息标记分布图,并将数据进行整合生成数据集;关联信息匹配:基于关键词确定与所述数据集相关联的一个或更多个排序因子,来确定所述内容数据标记分布图与信息属性的关联关系,基于所述排序因子根据所述关联关系得到对应的内容数据及标记排序。2.如权利要求1所述的一种网页多重信息属性的标记方法,其特征在于:所述HTML标志,用于引用文字、图片的文档部件;所述信息属性,用于标志的选项并放在开始标志内,在所述标志中进行颜色、对齐方式、高度和宽度的修饰。3.如权利要求2所述的一种网页多重信息属性的标记方法,其特征在于:进行目标代码的数值化处理,确定所述目标代码的属性阈值,具体为:对所述属性代码进行解析,确定目标代码数据,对所述目标代码数据根据代码类别划分成多个代码分块;获取每个代码分块的修饰类型并进行数值化处理,得到每个代码分块的类型值,根据所述类型值确定对应的对象数据的提取方式;基于所述提取方式获取每一代码分块对应的对象数据的属性特征,同时基于所述属性特征在所述HTML标志中的修饰类型,生成所述HTML标志的信息属性。4.如权利要求3所述的一种网页多重信息属性的标记方法,其特征在于:获取每一代码分块对应的对象数据的属性特征,具体为:将所述对象数据的属性特征储存在云网络中的存储节点上,并基于存储节点在存储数据时的使用频率,从高到低进行排列,建立排队队列;根据所述排队队列得到若干个匹配组,确定每个代码分块的使用强度,根据所述每个代码分块的使用强度将若干个匹配组来进行对象数据的属性特征的匹配。5.如权利要求4所述的一种网页多重信息属性的标记方法,其特征在于:将所述对象数据的属性特征储存在云网络中的存储节点上,并基于存储节点在存储数据时的使用频率,从高到低进行排列,建立排队队列,包括提取所述对象数据的属性特征,并将所述对象数据的属性特征上传至云网络中存储节点上;提取所述存储节点的在存储数据时的使用频率,判断所述使用频率是否存在相同的频率数值;当所述使用频率不存在相同的频率数值时,则按照使用频率从高到低进行排列,建立排队队列;
当所述使用频率存在相同的频率数值时,则提取所述频率数值相同的存储节点个数;当所述存储节点个数没有超过预设的个数阈值时,则将所述存储节点整合为一个存储节点集合,将所述存储节点集合作为一个存储节点,按照使用频率从高到低进行排列,建立排队队列;当所述存储节点个数超过预设的个数阈值时,则对所述存储节点进行分组集合,获得多个存储节点集合,将所述多个存储节点集合作为并列存储节点,按照使用频率从高到低进行排列,建立排队队列;其中,所述个数阈值通过如下公式获取:其中,M表示个数阈值,M为向上取整;N表示存储节点的总个数;C表示单位时间内存储节点的存储触发总次数;k表示单位时间的个数;C
i
表示第i个单位时间对应的存储节点的存储触发总次数;N
i
表示第i个单位时间内的被触发的存储节点的个数;M0表示基准个数数值,M0的取值范围为[0.15N,0.24N]。6.如权利要求5所述的一种网页多重信息属性的标记方法,其特征在于:当所述存储节点个数超过...

【专利技术属性】
技术研发人员:吕修政刘兆民
申请(专利权)人:山东乾舜广告传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1