【技术实现步骤摘要】
【技术保护点】
一种去除噪音信息的新闻网页内容抽取方法,其特征在于,该方法包括以下步骤:解析Html页面,将html转换成标准xml格式,并过滤掉非显示的标记;生成文档树结构(DOMTree)并遍历该计算页面包含的正文数,短链接数和长链接数;一层一层计算每个节点的权重,找到最权重最大的节点,该节点就是包含正文的节点。
【技术特征摘要】
【专利技术属性】
技术研发人员:黄靖,
申请(专利权)人:北京麦克斯泰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。