广告地址确定方法、装置、设备以及存储介质制造方法及图纸

技术编号:27687914 阅读:25 留言:0更新日期:2021-03-17 04:12
本发明专利技术公开一种广告地址确定方法、装置、设备以及存储介质,网络安全领域。其中,广告地址确定方法包括:获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;从至少一张所述网页截图中截取出待识别图片;对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;将所述文本信息中具有预设关键词的待识别图片作为目标图片;从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。本发明专利技术提供的广告地址确定方法具有通用性,可对不同编写逻辑的网页确定出该网页包含的广告地址。

【技术实现步骤摘要】
广告地址确定方法、装置、设备以及存储介质
本专利技术涉及网络安全领域,特别涉及一种广告地址确定方法、装置、设备以及存储介质。
技术介绍
互联网广告随着互联网的普及而得到大力发展,也就需要对各个网站媒体页上的广告进行识别,以监测该网站推送的广告是否符合相关法律法规。但是目前的通过解析网页的超文本标记语言HTML数据进行广告地址识别的方法不能对网页编写逻辑不同的网页进行识别,即广告地址确定方法不具有通用性。
技术实现思路
本专利技术的主要目的是提供一种广告地址确定方法、装置、设备以及存储介质,旨在解决现有技术中广告识别方法不具有通用性的技术问题。为实现上述目的,本专利技术提出的一种广告地址确定方法,包括:获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;从至少一张所述网页截图中截取出待识别图片;对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;将所述文本信息中具有预设关键词的待识别图片作为目标图片;从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。可选的,所述获取目标网页的超文本标记语言HTML数据以及至少一张网页截图的步骤之后,所述方法还包括:从所述HTML数据中提取出多张图片;所述从至少一张所述网页截图中截取出待识别图片的步骤,包括:从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。可选的,从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤之前,所述方法还包括:根据任一张所述图片,确定任一张所述图片对应的截取框;从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤,包括:基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。可选的,所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤之前,所述方法还包括:识别出所述图片与所述图片相对应的所述待识别图片的不同区域;所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤,包括:对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。可选的,所述从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址的步骤之后,所述方法还包括:基于所述广告落地页地址,获得广告落地页网站截图与广告主体。可选的,所述基于所述广告落地页地址,获得广告落地页网站截图与广告主体的步骤之后,所述方法还包括:从多个所述广告落地页网站截图与广告主体中识别出违法广告。可选的,所述从多个所述广告落地页网站截图与广告主体中识别出违法广告的步骤之后,所述方法还包括:基于所述目标图片、广告落地页链接、广告主体与落地页网站截图,构建违法广告证据表。可选的,所述获取目标网页的超文本数据与至少一张网页截图,包括:获取目标网页的超文本标记语言HTML数据以及至少一个用户终端截取的至少一张网页截图。可选的,所述预设关键词包括推荐或广告。此外,为了实现上述目的,一种广告地址确定装置,包括:数据获取模块,用于获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;图片截取模块,用于从至少一张所述网页截图中截取出待识别图片;字符识别模块,用于对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;目标确定模块,用于将所述文本信息中具有预设关键词的待识别图片作为目标图片;广告确定模块,从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。可选的,所述图像截取模块还用于从所述HTML数据中提取出多张图片;从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。可选的,图片截取模块还用于根据任一张所述图片,确定任一张所述图片对应的截取框;基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。可选的,所述字符识别模块还用于识别出所述图片与所述图片相对应的所述待识别图片的不同区域;对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。。可选的,还包括:广告搜索模块,用于基于所述广告落地页地址,获得广告落地页网站截图与广告主体。可选的,所述广告搜索模块还用于从多个所述广告落地页网站截图与广告主体中识别出违法广告。可选的,所述广告搜索模块还用于基于所述目标图片、广告落地页链接、广告主体与落地页网站截图,构建目标网页广告证据表。可选的,所述数据获取模块还用于获取目标网页的超文本标记语言HTML数据以及至少一个用户终端截取的至少一张网页截图。可选的,所述目标确定模块中所述预设关键词包括推荐或广告。此外,本专利技术实施例还提供了一种广告地址确定设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的广告地址确定程序,所述广告地址确定程序配置为广告地址确定方法的步骤。此外,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有广告地址确定程序,所述广告地址确定程序被处理器执行时实现广告地址确定方法的步骤。本专利技术技术方案提供的广告地址确定方法中,本广告地址确定方法通过对目标网站的至少一张网页截图来表达用户打开目标网页时的所看到的显示界面,利用网页截图中待识别图片上带有的预设关键字判断出作为广告使用的目标图片,进而从超文本标记语言HTML数据中确定与目标图片对应的代码段,以及该代码段具有的广告落地页地址。本专利技术可以从不同编写逻辑的网站网页中确定出广告落地页链接,也即是本广告地址确定方法具有通用性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1为本专利技术广告地址确定设备一实施例的硬件结构示意图;图2为本专利技术广告地址确定方法第一实施例的流程示意图;图3为本专利技术一实施例的网页截图的示意图;图4为本专利技术广告地址确定方法第二实施例的流程示意图;图5为本专利技术另一实施例的网页截图与图片的示意图;图6为本专利技术广告地址确定方法第三实施例的程示意图;图7为本专利技术广告地址确定方法第四实施例的程示意图;图8为本专利技术广告地址确定装置第一实施例的程示意图;图9为本专利技术广告地址确定装本文档来自技高网...

【技术保护点】
1.一种广告地址确定方法,其特征在于,包括:/n获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;/n从至少一张所述网页截图中截取出待识别图片;/n对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;/n将所述文本信息中具有预设关键词的待识别图片作为目标图片;/n从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。/n

【技术特征摘要】
1.一种广告地址确定方法,其特征在于,包括:
获取目标网页的超文本标记语言HTML数据以及至少一张网页截图;
从至少一张所述网页截图中截取出待识别图片;
对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息;
将所述文本信息中具有预设关键词的待识别图片作为目标图片;
从所述HTML数据中确定与所述目标图片对应的代码段,并基于所述代码段确定广告落地页地址。


2.根据权利要求1所述的广告地址确定方法,其特征在于,所述获取目标网页的超文本标记语言HTML数据以及至少一张网页截图的步骤之后,所述方法还包括:
从所述HTML数据中提取出多张图片;
所述从至少一张所述网页截图中截取出待识别图片的步骤,包括:
从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片。


3.根据权利要求2所述的广告地址确定方法,其特征在于,从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤之前,所述方法还包括:
根据任一张所述图片,确定任一张所述图片对应的截取框;
从至少一张所述网页截图中截取出与所述图片相对应的至少一张待识别图片的步骤,包括:
基于所述截取框,从至少一张所述网页截图确定与任一张所述图片相对应的至少一个框选区域;
截取所述至少一个框选区域,得到任一张所述图片对应的至少一张待识别图片。


4.根据权利要求1所述的广告地址确定方法,其特征在于,所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤之前,所述方法还包括:
识别出所述图片与所述图片相对应的所述待识别图片的不同区域;
所述对所述待识别图片进行光学字符识别,以获得所述待识别图片中的文本信息的步骤,包括:
对所述不同区域中的显示图像进行光学字符识别,以获得所述不同区域中的文本信息。

【专利技术属性】
技术研发人员:杨玉柳
申请(专利权)人:苏州三六零智能安全科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1