提取结构化数据的方法及装置制造方法及图纸

技术编号：11421536 阅读：177 留言：0更新日期：2015-05-06 23:17

本发明专利技术实施例公开了一种提取结构化数据的方法及装置，该方法包括：将网页划分为主体区域和辅助区域，构建用于表示所述主体区域的XPATH标记树；将所述XPATH标记树中的XPATH节点与CSS标签进行对应，并根据CSS标签内容的相似度将所述CSS标签进行分组；若所述XPATH标记树中各个XPATH节点的CSS标签均属于同一分组，且所述各个XPATH节点的CSS标签是属于同一父标签下的子标签，则提取所述XPATH标记树中各个XPATH节点对应的数据作为正文内容。

全部详细技术资料下载

【技术实现步骤摘要】
提取结构化数据的方法及装置
本专利技术涉及数据处理领域，尤其涉及一种提取结构化数据的方法及装置。
技术介绍
网络上所公开的文档通常称作网页，其一般都是用称作HTML的语言来进行公开，而HTML为文档规定了标准格式。虽然将网络信息以HTML格式呈现时，用户可以非常便利地进行阅读，但是若用户想从HTML文档中进行信息检索以便进行自动化处理则较为困难。这是因为网页中的数据较繁杂，一些信息，例如导航（菜单）信息和广告信息等，会导致搜索引擎的结果中出现大量垃圾信息，从而导致网络挖掘的精度下降。
技术实现思路
本专利技术实施例所要解决的技术问题在于，针对现有技术中网络数据挖掘精度不足的缺陷，提供一种高效精确的提取结构化数据的方法及装置。为了解决上述技术问题，本专利技术实施例提供了一种提取结构化数据的方法，包括：将网页划分为主体区域和辅助区域，构建用于表示所述主体区域的XPATH标记树；将所述XPATH标记树中的XPATH节点与CSS标签进行对应，并根据CSS标签内容的相似度将所述CSS标签进行分组；若所述XPATH标记树中各个XPATH节点的CSS标签均属于同一分组，且所述各个XPATH节点的CSS标签是属于同一父标签下的子标签，则提取所述XPATH标记树中各个XPATH节点对应的数据作为正文内容。其中，所述将网页划分为主体区域和辅助区域，构建用于表示所述主体区域的XPATH标记树的步骤包括：解析网页，获取所述网页的XPATH节点；根据所述XPATH节点的属性对所述XPATH节点进行过滤，获取体现网页结构布局的XPATH节点；将所述体现网页结构布局的XPATH节点划分为用...

【技术保护点】
一种提取结构化数据的方法，其特征在于，包括：将网页划分为主体区域和辅助区域，构建用于表示所述主体区域的XPATH标记树；将所述XPATH标记树中的XPATH节点与CSS标签进行对应，并根据CSS标签内容的相似度将所述CSS标签进行分组；若所述XPATH标记树中各个XPATH节点的CSS标签均属于同一分组，且所述各个XPATH节点的CSS标签是属于同一父标签下的子标签，则提取所述XPATH标记树中各个XPATH节点对应的数据作为正文内容。

【技术特征摘要】
1.一种提取结构化数据的方法，其特征在于，包括：将网页划分为主体区域和辅助区域，构建用于表示所述主体区域的XPATH标记树，该步骤包括：解析网页，获取所述网页的XPATH节点；根据所述XPATH节点的属性对所述XPATH节点进行过滤，获取体现网页结构布局的XPATH节点；将所述体现网页结构布局的XPATH节点划分为用于表示主体区域的XPATH节点和用于表示辅助区域的XPATH节点，提取用于表示所述主体区域的XPATH节点构建XPATH标记树；将所述XPATH标记树中的XPATH节点与CSS标签进行对应，并根据CSS标签内容的相似度将所述CSS标签进行分组；若所述XPATH标记树中各个XPATH节点的CSS标签均属于同一分组，且所述各个XPATH节点的CSS标签是属于同一父标签下的子标签，则提取所述XPATH标记树中各个XPATH节点对应的数据作为正文内容。2.如权利要求1所述的提取结构化数据的方法，其特征在于，所述根据CSS标签内容的相似度将所述CSS标签进行分组的步骤包括：提取所述CSS标签内容中的特征属性，所述特征属性包括字体大小、颜色和/或行间距；将所述特征属性一致的CSS标签作为一个分组。3.如权利要求1所述的提取结构化数据的方法，其特征在于，所述方法还包括：若所述XPATH标记树中各个XPATH节点的CSS标签不属于同一分组，或所述各个XPATH节点的CSS标签不是属于同一父标签下的子标签，则选择CSS标签数量最多的分组作为最优分组，提取所述最优分组中的CSS标签所对应的XPATH节点下的数据作为正文内容。4.如权利要求1所述的提取结构化数据的方法，其特征在于，所述方法还包括：若所述XPATH标记树中各个XPATH节点的CSS标签不属于同一分组，或所述各个XPATH节点的CSS标签不是属于同一父标签下的子标签，则统计各个分组中的CSS标签的数量，剔除数量最少的一组CSS标签对应的XPATH节点，提取所述XPATH标记树中剩余XPATH节点对应的数据作为正文内容。5.一种提取结构化数据的装置，其特征在于，包括：主体区域提取模块，用于将网页划分为主体区域和辅助区域，构...

【专利技术属性】
技术研发人员：欧阳科，杜建欣，齐彦申，
申请(专利权)人：深圳市国信互联科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人