一种新闻网页内容的抽取方法技术

技术编号：8765538 阅读：233 留言：0更新日期：2013-06-07 22:45

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种去除噪音信息的新闻网页内容抽取方法，其特征在于，该方法包括以下步骤：解析Html页面，将html转换成标准xml格式，并过滤掉非显示的标记；生成文档树结构（DOMTree）并遍历该计算页面包含的正文数，短链接数和长链接数；一层一层计算每个节点的权重，找到最权重最大的节点，该节点就是包含正文的节点。

【技术特征摘要】

【专利技术属性】
技术研发人员：黄靖，
申请(专利权)人：北京麦克斯泰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人