一种网页登录实体识别方法、装置、设备和存储介质制造方法及图纸

技术编号:37850920 阅读:12 留言:0更新日期:2023-06-14 22:40
本发明专利技术提供了一种网页登录实体识别方法、装置、设备和存储介质,所述方法包括:抽取登录实体模板构建登录实体模板库;利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。本发明专利技术基于登录实体模板可以排除与登录实体识别不相关的网页标签,减少了大量的冗余信息,使得登录实体的识别速度提高;在登录实体识别过程中充分利用了网页标签的上下文特征信息,有效的提高了模型的识别效果。高了模型的识别效果。高了模型的识别效果。

【技术实现步骤摘要】
一种网页登录实体识别方法、装置、设备和存储介质


[0001]本专利技术涉及网页登录实体识别
,具体涉及一种网页登录实体识别方法、装置设备和存储介质。

技术介绍

[0002]网页登录实体是一类重要的攻击面,它是网站自动化渗透测试过程不可缺少的一个环节。登录实体识别技术用来识别目标网页中登录相关的网页标签,进而抽取登录相关信息进行自动登录。具体的登录实体包括用户名、密码、验证码登录、验证码图片、登录这5类实体及登录token标签。
[0003]传统识别方法主要针对不同的登录实体的特征,相对独立的从特征类型的网页标签提取登录实体识别中依赖的多出关键位置信息,然后根据不同的登录实体设计各种规则、特征,最后判断某种登录实体的关键特征是否存在于信息中,根据具体识别技术返回识别的结果,但传统识别方法依然存在有待改进的地方。传统登录实体识别由于无法确定哪些网页标签对待识别的登录实体有帮助,往往会保留大量的网页标签用来获取特征,这种半规则化的网页数据对特征的设计带来了很大困难,往往导致大量的冗余特征,使得登录实体的识别成本提高。由于网页标签信息的不确定性,在识别登录实体时无法规整所有登录入口相关信息作为单个登录实体的识别特征,这导致登录实体的识别正确率降低。

技术实现思路

[0004]鉴于上述问题,本专利技术实施例一种网页登录实体识别方法及装置,解决现有的技术问题。
[0005]为解决上述技术问题,本专利技术提供以下技术方案:
[0006]第一方面,本专利技术提供一种网页登录实体识别方法,所述方法包括:
[0007]抽取登录实体模板构建登录实体模板库;
[0008]利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;
[0009]结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;
[0010]将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。
[0011]一实施例中,所述抽取登录实体模板构建登录实体模板库包括:
[0012]在网页Dom Tree序列化时优先遍历根节点对应的网页标签,得到网页标签序列;
[0013]以password网页标签为中心统计网页标签序列;
[0014]对不同网络标签序列依据出现频次降序排列;
[0015]采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签,得到登录实体模板;
[0016]将全部登录实体模板保存,得到登录实体模板库。
[0017]一实施例中,所述利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列包括:
[0018]统计不同网页标签类型序列,得到不同登录模式的候选网页标签序列集合;
[0019]筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体模板对照,选择与登录实体模板重合的部分,排除与登录实体识别不相关的网页标签。
[0020]一实施例中,所述结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征包括:
[0021]基于文本分词对网页标签序列的属性值切分;
[0022]利用网页标签名称

标签属性名称

属性值关键字的特征模板,生成网页标签对应的特征词;
[0023]统计各个特征词在当前网页数据中出现的频次,得到登录实体特征。
[0024]一实施例中,统计各个特征词在当前网页数据中出现的频次时使用TF

IDF方法。
[0025]一实施例中,在将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别的概率分布,得到目标网页中的登录实体类别之前,所述方法还包括:
[0026]识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率,来优化Bayes识别模型的训练参数,得到训练好的Bayes识别模型。
[0027]一实施例中,在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理。
[0028]第二方面,本专利技术提供一种网页登录实体识别装置,所述装置包括:
[0029]登录实体模板库构建模块:用于抽取登录实体模板构建登录实体模板库;
[0030]网页标签序列框定模块:用于利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;
[0031]登录实体特征提取模块:用于结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;
[0032]Bayes识别模块:用于将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。
[0033]一实施例中,所述登录实体模板库构建模块包括:
[0034]在网页Dom Tree序列化时优先遍历根节点对应的网页标签,得到网页标签序列;
[0035]以password网页标签为中心统计网页标签序列;
[0036]对不同网络标签序列依据出现频次降序排列;
[0037]采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签,得到登录实体模板;
[0038]将全部登录实体模板保存,得到登录实体模板库。
[0039]一实施例中,所述网页标签序列框定模块包括:
[0040]统计不同网页标签类型序列,得到不同登录模式的候选网页标签序列集合;
[0041]筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体
模板对照,选择与登录实体模板重合的部分,排除与登录实体识别不相关的网页标签。
[0042]一实施例中,所述登录实体特征提取模块包括:
[0043]基于文本分词对网页标签序列的属性值切分;
[0044]利用网页标签名称

标签属性名称

属性值关键字的特征模板,生成网页标签对应的特征词;
[0045]统计各个特征词在当前网页数据中出现的频次,得到登录实体特征。
[0046]一实施例中,统计各个特征词在当前网页数据中出现的频次时使用TF

IDF方法。
[0047]一实施例中,所述装置还包括:
[0048]Bayes识别模型训练模块:用于识别每个登录实体类别在训练样本中的出现频率和指定登录实体类别条件时特征词出现的概率,来优化Bayes识别模型的训练参数,得到训练好的Bayes识别模型。
[0049]一实施例中,在估计模型训练过程中利用拉普拉斯平滑方法对估计模型的训练参数进行平滑处理。
[0050]第三方面,本专利技术提供一种电子设备,包括:
[0051]处理器、存储器、与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页登录实体识别方法,其特征在于,所述方法包括:抽取登录实体模板构建登录实体模板库;利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列;结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征;将登录实体特征输入训练好的Bayes识别模型中,通过Bayes识别模型估计网页中登录实体类别在网页标签中的概率分布,选择概率值最大的登录实体类别最为最终的识别结果。2.如权利要求1所述的一种网页登录实体识别方法,其特征在于,所述抽取登录实体模板构建登录实体模板库包括:在网页Dom Tree序列化时优先遍历根节点对应的网页标签,得到网页标签序列;以password网页标签为中心统计网页标签序列;对不同网络标签序列依据出现频次降序排列;采用人工标注的方式依次排除每个网页标签序列中与登录实体不相关的网页标签,得到登录实体模板;将全部登录实体模板保存,得到登录实体模板库。3.如权利要求1所述的一种网页登录实体识别方法,其特征在于,所述利用登录实体模板库框定候选网页标签集中与登录实体模板重合的网页标签序列包括:统计不同网页标签类型序列,得到不同登录模式的候选网页标签序列集合;筛选各个不同登录模式中最长的网页标签序列与登录实体模板库中的登录实体模板对照,选择与登录实体模板重合的部分,排除与登录实体识别不相关的网页标签。4.如权利要求1所述的一种网页登录实体识别方法,其特征在于,所述结合上下文特征对框定的网页标签序列进行特征提取,得到登录实体特征包括:基于文本分词对网页标签序列的属性值切分;利用网页标签名称

标签属性名称

属性值关键字的特征模板,生成网页标签对应的特征词;统计各个特征词在当前网页数据中出现的频次...

【专利技术属性】
技术研发人员:王广清方铁城申彦龙刘颖陈宇翀郝堃周树杰刘嫣
申请(专利权)人:北京市燃气集团有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1