System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 结构化政策数据生成方法、装置、电子设备和可读介质制造方法及图纸_技高网

结构化政策数据生成方法、装置、电子设备和可读介质制造方法及图纸

技术编号:40436603 阅读:9 留言:0更新日期:2024-02-22 23:01
本公开的实施例公开了结构化政策数据生成方法、装置、电子设备和可读介质。该方法的一具体实施方式包括:获取目标政策文本页面;响应于确定目标政策文本页面为html格式页面,对目标政策文本页面进行预处理,得到预处理数据;根据预处理数据,确定目标政策文本页面的页面类型;根据页面类型和预处理数据,生成目标政策文本页面的结构化政策数据。该实施方式针对政策类网站进行复杂字段和多样化数据提取,可以精准提取政策内容、字段,还保存html页面正文内容中的图片、表格等内容以及相应位置,使重新解析渲染后的页面图文并茂,更加便于阅读。

【技术实现步骤摘要】

本公开的实施例涉及计算机,具体涉及结构化政策数据生成方法、装置、电子设备和计算机可读介质。


技术介绍

1、目前的网页解析,主要针对场景为新闻舆情类,提取字段为发布时间、作者以及新闻主要内容。但政策类内容的结构与新闻类结构不同,新闻类结构主要标题、内容两大部分组成;政策类为文号、时间等组成一部分,政策内容部分、下方各市县网站部分、页面附件、视频以及表格等部分。

2、因此,对于政策类网页进行网页解析时,往往会出现多种问题:页面组成内容较多比较杂乱,算法提取会造成一定的干扰,另外,采集程序的开发主要集中在网页解析上,文本类型相关网站非常多,不同网站的网页布局、排版、风格、内容各不相同,每个网站、网页都需要单独编写解析逻辑,实际操作过程中,程序维护非常频繁,维护成本高,维护效率差,而且未维护的程序会导致,后续数据混乱,更新不及时,影响线上数据,因此,为了降低人工编写成本,提高线上数据实时性,也就需要编写或少量编写解析逻辑就可以自动提取网页数据的方法。


技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了结构化政策数据生成方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题。

3、第一方面,本公开的一些实施例提供了一种结构化政策数据生成方法,该方法包括:获取目标政策文本页面;响应于确定上述目标政策文本页面为html格式页面,对上述目标政策文本页面进行预处理,得到预处理数据;根据上述预处理数据,确定上述目标政策文本页面的页面类型;根据上述页面类型和上述预处理数据,生成目标政策文本页面的结构化政策数据。

4、第二方面,本公开的一些实施例提供了一种结构化政策数据生成装置,装置包括:获取单元,被配置成获取目标政策文本页面;预处理单元,被配置成响应于确定上述目标政策文本页面为html格式页面,对上述目标政策文本页面进行预处理,得到预处理数据;确定单元,被配置成根据上述预处理数据,确定上述目标政策文本页面的页面类型;生成单元,被配置成根据上述页面类型和上述预处理数据,生成目标政策文本页面的结构化政策数据。

5、第三方面,本申请实施例提供了一种电子设备,该网络设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

6、第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

7、本公开的上述各个实施例中的一个实施例具有如下有益效果:针对政策类网站,实现复杂字段和多样化数据的提取,针对表格、附件以及政策相关字段做了相应的处理,从而可以精准提取政策内容以及字段,另外,本申请为了增加解析完整性,还保存html页面正文内容中的图片、表格等内容以及相应位置,使重新解析渲染后的页面图文并茂,更加便于阅读。

本文档来自技高网...

【技术保护点】

1.一种结构化政策数据生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述预处理数据,确定所述目标政策文本页面的页面类型,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述页面类型和所述预处理数据,生成结构化政策数据,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述页面类型和所述预处理数据,生成结构化政策数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本特征将所述目标政策文本页面分为正文分区和标题分区,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.一种结构化政策数据生成装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述确定单元被进一步配置成:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。

【技术特征摘要】

1.一种结构化政策数据生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述预处理数据,确定所述目标政策文本页面的页面类型,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述页面类型和所述预处理数据,生成结构化政策数据,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述页面类型和所述预处理数据,生成结构化政策数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:姜琳杰吴楠赛哲锋
申请(专利权)人:灵犀科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1