一种新闻热点标签的生成方法及系统技术方案

技术编号:9223530 阅读:192 留言:0更新日期:2013-10-04 17:33
本发明专利技术公开了一种新闻热点标签的生成方法及系统。该方法包括:提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;确定提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点标签。通过本发明专利技术,能够提高获取新闻热点标签的准确性。

【技术实现步骤摘要】
一种新闻热点标签的生成方法及系统
本专利技术涉及信息处理
,具体而言,特别涉及一种新闻热点标签的生成方法及系统。
技术介绍
随着互联网的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。由于网络媒体与传统媒体在传播载体和传播方式上的不同,将导致网络舆论热点、焦点层出不穷,而这些信息的产生将对社会产生巨大影响。因此,有必要对这些热点信息的正确性及传播范围进行有效处理。目前,针对新闻信息的分析功能有:新闻分类和预警、新闻聚合、新闻智能关联、新闻转载追踪等,而新闻事件热点标签的生成是上述分析功能的基础工作之一,例如:利用新闻热点标签作为检索关键字从而发现热点新闻;或者利用新闻热点标签生成热点新闻摘要等。目前,实用阶段的新闻事件热点标签生成技术主要有以下两类:1)基于统计特征的方法,该方法主要是对词元的使用频率进行统计,虽然操作简单,但是会忽略出现频率不高但对于文档具有关键意义的词语,导致新闻热点标签生成的准确性低;2)基于词语网络图的方法,该方法根据一定规则将文档映射为词语网络,利用词语网络图计算词语的关键度,在该方法中,目前主要是将高频词语以及它们在同一窗口(也即相互邻接、在相同的句子或段落等)的共现关系映射成词语网络,但该方法需要设定的参数过多,如顶点数、边数等,因而常造成边界上的取舍问题,如果边界取舍不当,则造成新闻热点标签生成的准确性低。针对现有技术中新闻热点标签生成准确性低的问题,目前尚未提出有效的解决方法。
技术实现思路
本专利技术的主要目的在于提供一种新闻热点标签的生成方法及系统,以解决现有技术中新闻热点标签生成准确性低的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种新闻热点标签的生成方法。本专利技术的新闻热点标签的生成方法包括:提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;确定提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点标签。进一步地,提取新闻数据集中的新闻簇包括:计算新闻数据集中两个新闻记录之间的相似度;判断相似度是否大于第一预设阈值;以及若相似度大于第一预设阈值时,确定两个新闻记录属于同一新闻簇。进一步地,计算两个新闻记录之间的相似度包括:将两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;采用以下任意一个公式计算相似度:Sim(X,Y)=(X*Y)/(||X||*||Y||),或者其中,Sim(X,Y)为相似度,X为第一向量,Y为第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分别为X和Y的欧几里得范数。进一步地,第一向量对应的新闻记录为第一新闻记录,将第一新闻记录进行特征化提取,得到第一向量包括:对第一新闻记录的标题和正文进行分词,得到由多个词元组成的第一词元集;根据词元在第一新闻记录中出现的次数计算第一词元集中词元对应的特征值;删除第一词元集中特征值小于第二预设阈值的词元;以及生成第一向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中,w1,w2,w3,...,wn第一词元集中词元,c1,c2,c3,...,cn分别为词元对应的特征值,n为第一词元集中词元的个数。进一步地,计算第一词元集中词元对应的特征值包括采用以下公式进行计算:ci=a1+a2*T+a3*P+a4*K,其中,ci为第一词元集中第i个词元对应的特征值,a1为该词元在第一新闻记录中出现的次数,a2为该词元在第一新闻记录的标题中出现的次数,a3为该词元在第一新闻记录的段首或段尾中出现的次数,a4为该词元在第一新闻记录的关键句中出现的次数,T、P、K均为无量纲参数。进一步地,在得到第一词元集之后、计算第一词元集中词元对应的特征值之前,将第一新闻记录进行特征化提取还包括:去除第一词元集中的无效词。进一步地,在计算第一词元集中词元对应的特征值之后、生成第一向量之前,将第一新闻记录进行特征化提取还包括:获取第一词元集中互为同义词的词元,得到同义词元组;将同义词元组对应的各特征值相加后作为最大词元对应的特征值,其中,最大词元为同义词元组中特征值最大的词元;在第一词元集中删除同义词元组中除最大词元之外的其他词元。进一步地,提取热点新闻簇中的关键字包括:提取热点新闻簇中各新闻记录对应的向量中的词元作为关键字。进一步地,根据组合词的热度值生成新闻热点标签包括:针对热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,一个组合词的特征值为该组合词中各词元对应的特征值的和;采用以下公式计算组合词的热度值:其中,Term_hot_value为第一组合词的热度值,第一组合词为任意一个组合词,N为热点新闻簇包括的新闻记录的个数,M为热点新闻簇中第j个新闻记录对应的组合词的个数,n为热点新闻簇中具有第一组合词的新闻记录个数,Term_Countji为第j个新闻记录对应的第i个组合词的特征值;以及确定热度值大于第三预设阈值的组合词为新闻热点标签。进一步地,热点新闻簇包括第二新闻记录,提取第二新闻记录的关键字包括:对第二新闻记录的标题和正文进行分词,得到由多个词元组成的第二词元集;根据词元在第二新闻记录中出现的次数计算第二词元集中词元对应的特征值;删除第二词元集中特征值小于第四预设阈值的词元;确定第二词元集中的词元为第二新闻记录的关键字。进一步地,根据组合词的热度值生成新闻热点标签包括:针对热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,一个组合词的特征值为该组合词中各关键字在该新闻记录中出现次数的和;采用以下公式计算每个组合词的热度值:其中,Term_hot_value为第二组合词的热度值,第二组合词为任意一个组合词,N为热点新闻簇包括的新闻记录的个数,M为热点新闻簇中第j个新闻记录对应的组合词的个数,n为热点新闻簇中具有第二组合词的新闻记录个数,Term_Countji为第j个新闻记录对应的第i个组合词的特征值;以及确定热度值大于第五预设阈值的组合词为新闻热点标签。进一步地,确定提取出的多个新闻簇中的热点新闻簇包括采用以下公式计算各个新闻簇的热度值:Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publi本文档来自技高网...
一种新闻热点标签的生成方法及系统

【技术保护点】
一种新闻热点标签的生成方法,其特征在于,包括:提取新闻数据集中的新闻簇,其中,所述新闻数据集由多个新闻记录组成,一个所述新闻簇包括至少两个所述新闻记录;确定提取出的多个所述新闻簇中的热点新闻簇;提取所述热点新闻簇中各新闻记录的关键字;生成由一个新闻记录的至少两个所述关键字组合的组合词,其中,一个新闻记录对应一个或多个所述组合词;以及根据所述组合词的热度值生成新闻热点标签。

【技术特征摘要】
1.一种新闻热点标签的生成方法,其特征在于,包括:提取新闻数据集中的新闻簇,其中,所述新闻数据集由多个新闻记录组成,一个所述新闻簇包括至少两个所述新闻记录;确定提取出的多个所述新闻簇中的热点新闻簇;提取所述热点新闻簇中各新闻记录的关键字;生成由一个新闻记录的至少两个所述关键字组合的组合词,其中,一个新闻记录对应一个或多个所述组合词;以及根据所述组合词的热度值生成新闻热点标签,其中,提取新闻数据集中的新闻簇包括:计算所述新闻数据集中两个新闻记录之间的相似度;判断所述相似度是否大于第一预设阈值;以及若所述相似度大于所述第一预设阈值时,确定所述两个新闻记录属于同一新闻簇,计算两个新闻记录之间的相似度包括:将所述两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;采用以下任意一个公式计算所述相似度:Sim(X,Y)=(X*Y)/(||X||*||Y||),或者其中,Sim(X,Y)为所述相似度,X为所述第一向量,Y为所述第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分别为X和Y的欧几里得范数,所述第一向量对应的新闻记录为第一新闻记录,将所述第一新闻记录进行特征化提取,得到所述第一向量包括:对所述第一新闻记录的标题和正文进行分词,得到由多个词元组成的第一词元集;根据词元在所述第一新闻记录中出现的次数计算所述第一词元集中词元对应的特征值;删除所述第一词元集中特征值小于第二预设阈值的词元;以及生成所述第一向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中,w1,w2,w3,...,wn所述第一词元集中词元,c1,c2,c3,...,cn分别为词元对应的特征值,n为所述第一词元集中词元的个数,计算所述第一词元集中词元对应的特征值包括采用以下公式进行计算:ci=a1+a2*T+a3*P+a4*K其中,ci为所述第一词元集中第i个词元对应的特征值,a1为所述第i个词元在所述第一新闻记录中出现的次数,a2为所述第i个词元在所述第一新闻记录的标题中出现的次数,a3为所述第i个词元在所述第一新闻记录的段首或段尾中出现的次数,a4为所述第i个词元在所述第一新闻记录的关键句中出现的次数,T、P、K均为无量纲参数。2.根据权利要求1所述的方法,其特征在于,在得到所述第一词元集之后、计算所述第一词元集中词元对应的特征值之前,将所述第一新闻记录进行特征化提取还包括:去除所述第一词元集中的无效词。3.根据权利要求1所述的方法,其特征在于,在计算所述第一词元集中词元对应的特征值之后、生成所述第一向量之前,将所述第一新闻记录进行特征化提取还包括:获取所述第一词元集中互为同义词的词元,得到同义词元组;将所述同义词元组对应的各特征值相加后作为最大词元对应的特征值,其中,所述最大词元为所述同义词元组中特征值最大的词元;在所述第一词元集中删除所述同义词元组中除所述最大词元之外的其他词元。4.根据权利要求1所述的方法,其特征在于,提取所述热点新闻簇中的关键字包括:提取所述热点新闻簇中各新闻记录对应的向量中的词元作为所述关键字。5.根据权利要求4所述的方法,其特征在于,根据所述组合词的热度值生成新闻热点标签包括:针对所述热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,一个组合词的特征值为该组合词中各词元对应的特征值的和;采用以下公式计算所述组合词的热度值:其中,Term_hot_value为第一组合词的热度值,所述第一组合词为任意一个所述组合词,N为所述热点新闻簇包括的新闻记录的个数,M为所述热点新闻簇中第j个新闻记录对应的组合词的个数,n为所述热点新闻簇中具有所述第一组合词的新闻记录个数,Term_Countji为所述第j个新闻记录对应的第i个组合词的特征值;以及确定热度值大于第三预设阈值的组合词为所述新闻热点标签。6.根据权利要求1所述的方法,其特征在于,所述热点新闻簇包括第二新闻记录,提取所述第二新闻记录的关键字包括:对所述第二新闻记录的标题和正文进行分词,得到由多个词元组成的第二词元集;根据词元在所述第二新闻记录中出现的次数计算所述第二词元集中词元对应的特征值;删除所述第二词元集中特征值小于第四预设阈值的词元;确定所述第二词元集中的词元为所述第二新闻记录的关键字。7.根据权利要求1所述的方法,其特征在于,根据所述组合词的热度值生成新闻热点标签包括:针对所述热点新闻簇的各新闻记录,计算每个新闻记录对应的组合词的特征值,其中,所述一个组合词的特征值为该组合词中各关键字在该新闻记录中出现次数的和;采用以下公式计算每个所述组合词的热度值:其中,Term_hot_value为第二组合词的热度值,所述第二组合词为任意一个所述组合词,N为所述热点新闻簇包括的新闻记录的个数,M为所述热点新闻簇中第j个新闻记录对应的组合词的个数,n为所述热点新闻簇中具有所述第二组合词的新闻记录个数,Term_Countji为所述第j个新闻记录对应的第i个组合词的特征值;以及确定热度值大于第五预设阈值的组合词为所述新闻热点标签。8.根据权利要求1至7中任一项所述的方法,其特征在于,确定提取出的多个所述新闻簇中的热点新闻簇包括:采用以下公式计算各个新闻簇的热度值,Cluster_Hot_Value=Site_Count*Site_Rate+Pub...

【专利技术属性】
技术研发人员:伏峰章正道林胜通
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1