本发明专利技术涉及一种热点新闻聚类及热度排序的方法及系统,包括定时采集各互联网平台的热搜数据,提取热搜数据的热搜标题并计算热搜标题的语义向量;计算热搜标题的语义向量之间的相似度,并通过聚类将语义相似的标题归类为同一新闻事件;分别计算每个热搜标题的热度系数选取同一新闻事件中热度系数最高的热搜标题为新闻事件名称,计算同一新闻事件的综合热度系数并根据不同新闻事件的综合热度系数输出热点新闻的排序结果。本发明专利技术通过生成热搜标题的语义向量,并计算标题相似性,能够准确地聚类相似的新闻事件,解决了标题表面差异带来的分类问题。通过聚类加权热度系数,能够高效地评估新闻事件的热度,为用户提供精准的热点新闻聚类与热度排序服务。
【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种热点新闻聚类及热度排序的方法及系统。
技术介绍
1、随着互联网技术的快速发展,网络信息量呈现出爆炸式增长的趋势。面对如此庞大的信息流,如何有效地筛选和呈现用户感兴趣的热点新闻成为一个重要的挑战。传统的热点新闻推荐方式往往依赖于人工编辑的方式生成,这种方式不仅耗时费力,而且难以实时反映网民的关注点变化。
2、现有的热点新闻聚类及热度排序技术仍存在一些不足之处,例如聚类精度不高、热搜来源单一的问题,这些问题限制了热点新闻处理的效果。因此,开发一种更精准的热点新闻聚类及热度排序方法及系统显得尤为必要。
技术实现思路
1、本专利技术的目的在于提供一种热点新闻聚类及热度排序的方法及系统,以解决现有技术精度不高、热搜来源单一的问题。
2、为实现上述专利技术目的之一,本专利技术一实施方式提供一种热点新闻聚类及热度排序的方法,所述方法包括,
3、定时采集各互联网平台的热搜数据,提取热搜数据的热搜标题并计算热搜标题的语义向量;
4、计算热搜标题的语义向量之间的相似度,并通过聚类将语义相似的标题归类为同一新闻事件;
5、分别计算每个热搜标题的热度系数选取同一新闻事件中热度系数最高的热搜标题为新闻事件名称,计算同一新闻事件的综合热度系数并根据不同新闻事件的综合热度系数输出热点新闻的排序结果。
6、作为本专利技术一实施方式的进一步改进,所述方法还包括,所述定时采集各互联网平台的热搜数据包括,p>7、通过scrapy框架基于预设的采集频率定时采集各互联网平台下的热搜数据;
8、采集的所述热搜数据包括热搜来源、热搜标题、热搜序号、热搜链接、采集时间。
9、作为本专利技术一实施方式的进一步改进,所述方法还包括,所述提取采集到的热搜标题的语义向量包括,
10、通过bert模型中tokenizer分词器将所述热搜标题切分成多个token,并将每个token转换为其在词汇表中的id,得到热搜标题的token_ids,其中每个字代表一个token;
11、将所述token_ids输入至bert模型,提取所述bert模型输出的[cls]标记所在位置对应的[cls]语义向量以及[sep]标记所在位置对应的[sep]序列结构向量;
12、将所述[cls]语义向量与所述[sep]序列结构向量进行求和平均,得到所述热搜标题的语义向量。
13、作为本专利技术一实施方式的进一步改进,所述方法还包括,所述计算热搜标题的语义向量之间的相似度包括,
14、通过计算多个热搜标题的语义向量,并计算两两热搜标题的语义向量之间的余弦相似度,生成相似度矩阵;
15、根据预设的相似度阈值,将所述相似度矩阵中低于所述相似度阈值的语义向量转化为0,高于所述相似度阈值的语义向量转化为1,得到0-1相似度矩阵;其中,0表示两两热搜标题之间内容不相似,1表示相似;
16、将所述0-1相似度矩阵表示为二维数组;所述二维数组的行索引和列索引分别对应热搜标题的id;
17、对于每个热搜标题,通过其id找到对应的行索引,提取该行所有的值,生成该热搜标题的相似度向量;所述相似度向量表示与其他热搜标题的相似度关系。
18、作为本专利技术一实施方式的进一步改进,所述方法还包括,所述通过聚类将语义相似的标题归类为同一新闻事件包括,
19、将所述二维数组作为k-means聚类的输入,随机选择初始聚类中心;
20、计算每个热搜标题的相似度向量与聚类中心的距离,并将其分配到最近的聚类中心,随后更新聚类中心位置;
21、重复分配和更新步骤,直到聚类中心位置不再发生显著变化或达到最大迭代次数,获得聚类结果;
22、将同一类别中相似度向量对应的热搜标题归类为同一新闻事件输出。
23、作为本专利技术一实施方式的进一步改进,所述方法还包括,所述分别计算每个热搜标题的热度系数包括,
24、所述热度系数的计算公式为:
25、热搜标题热度系数 = 序号归一化值*榜单权重
26、序号归一化值 = (热搜序号最大值+1-热搜序号) / (热搜序号最大值+1)
27、榜单权重 = 优先级下降系数*热搜来源优先级
28、其中,热搜序号最大值为热搜标题所在的热搜来源下序号的最大值;热搜序号为热搜标题在对应热搜来源中的排列序号;热搜来源优先级为基于业务需求对热搜来源预设的优先级排序;优先级下降系数表示随着热搜来源的优先级排名越靠后,优先级下降系数对于热度系数统计的负影响效果越明显;
29、对同一新闻事件中的每个热搜标题的热度系数进行排序,选取热度系数最高的热搜标题为该新闻事件的名称。
30、作为本专利技术一实施方式的进一步改进,所述方法还包括,所述计算同一新闻事件的综合热度系数包括,
31、对同一类别所有热搜标题的热度系数进行相加,得到该新闻事件的综合热度系数。
32、为实现上述专利技术目的之一,本专利技术一实施例还提供一种热点新闻聚类及热度排序的系统,所述系统包括采集模块、计算模块和排序模块;
33、所述采集模块用于定时采集各互联网平台的热搜数据,提取热搜数据的热搜标题并计算热搜标题的语义向量;
34、所述计算模块用于计算热搜标题的语义向量之间的相似度,并通过聚类将语义相似的标题归类为同一新闻事件;
35、所述排序模块用于分别计算每个热搜标题的热度系数选取同一新闻事件中热度系数最高的热搜标题为新闻事件名称,计算同一新闻事件的综合热度系数并根据不同新闻事件的综合热度系数输出热点新闻的排序结果。
36、为实现上述专利技术目的之一,本专利技术一实施例还提供一种电子设备,包括存储器以及处理器,其特征在于,所述存储器中存储可在所述处理器上运行的计算机程序,所述处理器上执行程序时实现如上所述热点新闻聚类及热度排序的方法中的步骤。
37、为实现上述专利技术目的之一,本专利技术一实施例还提供一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述热点新闻聚类及热度排序的方法中的步骤。
38、本专利技术与现有技术相比,本专利技术提供的一种热点新闻聚类及热度排序的方法及系统通过结合bert模型生成热搜标题的语义向量,并使用余弦相似度计算标题相似性,能够准确地聚类相似的新闻事件,解决了标题表面差异带来的分类问题。通过k-means聚类和加权热度系数统计,能够高效地评估新闻事件的热度,进一步提高热点新闻排序的准确性和及时性,满足多平台热搜数据分析需求,为用户提供更加精准的热点新闻聚类与热度排序服务。
本文档来自技高网...
【技术保护点】
1.一种热点新闻聚类及热度排序的方法,其特征在于:包括,
2.根据权利要求1所述的热点新闻聚类及热度排序的方法,其特征在于:所述定时采集各互联网平台的热搜数据包括,
3.根据权利要求2所述的热点新闻聚类及热度排序的方法,其特征在于:所述提取采集到的热搜标题的语义向量包括,
4.根据权利要求3所述的热点新闻聚类及热度排序的方法,其特征在于:所述计算热搜标题的语义向量之间的相似度包括,
5.根据权利要求4所述的热点新闻聚类及热度排序的方法,其特征在于:所述通过聚类将语义相似的标题归类为同一新闻事件包括,
6.根据权利要求5所述的热点新闻聚类及热度排序的方法,其特征在于:所述分别计算每个热搜标题的热度系数包括,
7.根据权利要求6所述的热点新闻聚类及热度排序的方法,其特征在于:所述计算同一新闻事件的综合热度系数包括,
8.一种热点新闻聚类及热度排序的系统,其特征在于:包括采集模块、计算模块和排序模块;
9.一种电子设备,包括存储器以及处理器,其特征在于:所述存储器中存储可在所述处理器上运行的计算机程序,所述处理器上执行程序时实现如权利要求1-7任意一项所述热点新闻聚类及热度排序的方法中的步骤。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述热点新闻聚类及热度排序的方法中的步骤。
...
【技术特征摘要】
1.一种热点新闻聚类及热度排序的方法,其特征在于:包括,
2.根据权利要求1所述的热点新闻聚类及热度排序的方法,其特征在于:所述定时采集各互联网平台的热搜数据包括,
3.根据权利要求2所述的热点新闻聚类及热度排序的方法,其特征在于:所述提取采集到的热搜标题的语义向量包括,
4.根据权利要求3所述的热点新闻聚类及热度排序的方法,其特征在于:所述计算热搜标题的语义向量之间的相似度包括,
5.根据权利要求4所述的热点新闻聚类及热度排序的方法,其特征在于:所述通过聚类将语义相似的标题归类为同一新闻事件包括,
6.根据权利要求5所述的热点新闻聚类及热度排序的方法,其特征在于:所述...
【专利技术属性】
技术研发人员:麦淼,罗小龙,王梦环,李梓华,
申请(专利权)人:广东南方智媒科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。