本申请公开了一种基于多维度的发布时间识别方法及装置,通过获取文章页面,对文章页面进行DOM树构建,并获取文章页面中所有的时间标签得到时间标签集合,将时间标签集合中的所有时间转化为标准时间得到基础时间标签集合;将基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合;依次分析过滤时间标签集合的样式特征、内容特征、位置特征和额外加分项后得到样式分数集合、文本分数集合、位置分数集合和额外分数集合,将样式分数集合、文本分数集合、位置特征集合和额外分数集合进行归一化处理得到各个维度的最终分数,根据各个维度的最终分数得到当前文章的发布时间。本申请提供的方法提高了文章发布时间识别的精准度。准度。准度。
【技术实现步骤摘要】
一种基于多维度的发布时间识别方法及装置
[0001]本申请涉及发布时间识别
,具体涉及一种基于多维度的发布时间识别方法及装置。
技术介绍
[0002]随着社会的不断发展,对于网络文章尤其是新闻媒体的发布时间进行准确的提取,在传播分析、舆情监测与预警等领域都有着极其重要的意义。
[0003]现有的发布时间识别方法主要包括标签特征抽取发布时间和正则匹配。标签特征抽取发布时间比较单一,只适用于大部分网站的发布时间抽取,例如:对网页标签中带有time属性的标签抽取;对于一些不规则的网站以及论坛网站,往往兼容性不好,新闻类网站比较容易抽取不到,论坛类网站容易将作者的创建账号时间误认为是发布时间等。而正则匹配更容易将文章或标题内的含有时间的文字误识别为发布时间,从而影响最终结果。
[0004]现有的对于发布时间的识别,难度最大的为论坛类网站的发布时间识别,因为论坛类网站往往带有楼层回帖,比较容易混淆发布时间,导致识别结果不准确。
技术实现思路
[0005]为此,本申请提供一种基于多维度的发布时间识别方法及装置,以解决现有技术存在的发布时间识别不准确的问题。
[0006]为了实现上述目的,本申请提供如下技术方案:
[0007]第一方面,一种基于多维度的发布时间识别方法,包括:
[0008]获取文章页面;
[0009]对所述文章页面进行DOM树构建,并获取所述文章页面中所有的时间标签得到时间标签集合;
[0010]将所述时间标签集合中的所有时间转化为标准时间得到基础时间标签集合;
[0011]将所述基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合;
[0012]分析所述过滤时间标签集合的样式特征得到样式特征集合,并根据样式特征进行打分得到样式分数集合;
[0013]分析所述样式特征集合的内容特征得到内容特征集合,并根据内容特征进行打分得到文本分数集合;
[0014]分析所述内容特征集合的位置特征得到位置特征集合,并根据位置特征进行得分得到位置分数集合;
[0015]分析所述位置特征集合的额外加分项,得到额外分数集合;
[0016]将所述样式分数集合、所述文本分数集合、所述位置特征集合和所述额外分数集合进行归一化处理得到各个维度的最终分数;
[0017]根据各个维度的最终分数得到当前文章的发布时间。
[0018]可选地,所述时间标签集合包括a标签、p标签、time自定义标签和正则匹配到的时
间文字特征标签。
[0019]可选地,所述根据样式特征进行打分得到样式分数集合,具体是通过识别所述过滤时间标签集合中的父标签class属性或id属性中是否含有time或date字样、所述过滤时间标签集合是否含有年月日字样、是否含有明显的背景颜色以及是否具有链接地址进行打分的。
[0020]可选地,所述位置分数为所述位置特征集合内的标签位置与发布时间假想点的位置的差值的绝对值。
[0021]可选地,所述发布时间假想点为文章标题和作者点或标题和正文点在文章中的均值。
[0022]可选地,若当前标签的位置大于全页标签位置的4/5或者小于全页位置标签位置的1/5时当前标签的位置分数为零。
[0023]可选地,所述额外加分项包括判断当前标签的兄弟标签中是否含有地域词、是否含有分割线、是否含有楼层信息以及是否含有作者信息。
[0024]第二方面,一种基于多维度的发布时间识别装置,包括:
[0025]文章页面获取模块,用于获取文章页面;
[0026]基础备选条件构建模块,用于对所述文章页面进行DOM树构建,并获取所述文章页面中所有的时间标签得到时间标签集合;
[0027]标准时间转化模块,用于将所述时间标签集合中的所有时间转化为标准时间得到基础时间标签集合;
[0028]过滤模块,用于将所述基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合;
[0029]样式特征分析模块,用于分析所述过滤时间标签集合的样式特征得到样式特征集合,并根据样式特征进行打分得到样式分数集合;
[0030]内容特征分析模块,用于分析所述样式特征集合的内容特征得到内容特征集合,并根据内容特征进行打分得到文本分数集合;
[0031]位置特征分析模块,用于分析所述内容特征集合的位置特征得到位置特征集合,并根据位置特征进行得分得到位置分数集合;
[0032]额外加分项分析模块,用于分析所述位置特征集合的额外加分项,得到额外分数集合;
[0033]归一化处理模块,用于将所述样式分数集合、所述文本分数集合、所述位置特征集合和所述额外分数集合进行归一化处理得到各个维度的最终分数;
[0034]文章发布时间确定模块,用于根据各个维度的最终分数得到当前文章的发布时间。
[0035]第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于多维度的发布时间识别方法的步骤。
[0036]第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种基于多维度的发布时间识别方法的步骤。
[0037]相比现有技术,本申请至少具有以下有益效果:
[0038]本申请提供了一种基于多维度的发布时间识别方法及装置,通过获取文章页面,
对文章页面进行DOM树构建,并获取文章页面中所有的时间标签得到时间标签集合,将时间标签集合中的所有时间转化为标准时间得到基础时间标签集合;将基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合;依次分析过滤时间标签集合的样式特征、内容特征、位置特征和额外加分项得到样式分数集合、文本分数集合、位置分数集合和额外分数集合,将样式分数集合、文本分数集合、位置特征集合和额外分数集合进行归一化处理得到各个维度的最终分数,根据各个维度的最终分数得到当前文章的发布时间。本申请基于多个维度分析得到分数排行榜,最后取得分最高地标签判定为当前文章的发布时间,能够准确抽取网页文章发布时间,提高了文章发布时间识别的精准度。
附图说明
[0039]为了更直观地说明现有技术以及本申请,下面给出几个示例性的附图。应当理解,附图中所示的具体形状、构造,通常不应视为实现本申请时的限定条件;例如,本领域技术人员基于本申请揭示的技术构思和示例性的附图,有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。
[0040]图1为本申请实施例一提供的一种基于多维度的发布时间识别方法流程图;
[0041]图2为本申请实施例一提供的一种基于多维度的发布时间识别方法框图;
[0042]图3为本申请实施例一提供的论坛网站结果示意图;
[0043]图4为本申请实施例一提供的新闻网站结果示意图。
具体实施方式
[0044]以下本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多维度的发布时间识别方法,其特征在于,包括:获取文章页面;对所述文章页面进行DOM树构建,并获取所述文章页面中所有的时间标签得到时间标签集合;将所述时间标签集合中的所有时间转化为标准时间得到基础时间标签集合;将所述基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合;分析所述过滤时间标签集合的样式特征得到样式特征集合,并根据样式特征进行打分得到样式分数集合;分析所述样式特征集合的内容特征得到内容特征集合,并根据内容特征进行打分得到文本分数集合;分析所述内容特征集合的位置特征得到位置特征集合,并根据位置特征进行得分得到位置分数集合;分析所述位置特征集合的额外加分项,得到额外分数集合;将所述样式分数集合、所述文本分数集合、所述位置特征集合和所述额外分数集合进行归一化处理得到各个维度的最终分数;根据各个维度的最终分数得到当前文章的发布时间。2.根据权利要求1所述的基于多维度的发布时间识别方法,其特征在于,所述时间标签集合包括a标签、p标签、time自定义标签和正则匹配到的时间文字特征标签。3.根据权利要求1所述的基于多维度的发布时间识别方法,其特征在于,所述根据样式特征进行打分得到样式分数集合,具体是通过识别所述过滤时间标签集合中的父标签class属性或id属性中是否含有time或date字样、所述过滤时间标签集合是否含有年月日字样、是否含有明显的背景颜色以及是否具有链接地址进行打分的。4.根据权利要求1所述的基于多维度的发布时间识别方法,其特征在于,所述位置分数为所述位置特征集合内的标签位置与发布时间假想点的位置的差值的绝对值。5.根据权利要求4所述的基于多维度的发布时间识别方法,其特征在于,所述发布时间假想点为文章标题和作者点或标题和正文点在文章中的均值。6.根据权利要求4所述的基于多维度的发布时间识别方法,其特征在于,若当前...
【专利技术属性】
技术研发人员:田振,
申请(专利权)人:北京麦克斯泰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。