一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法制造技术

技术编号:36418985 阅读:19 留言:0更新日期:2023-01-20 22:25
本发明专利技术公开了一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,包括分析网络论坛中帖子的发表时间数据,将网络论坛及用户关注点,随时间变化的思想,加入所述关注点权值计算过程;结合运用时间窗口及时间遗忘算法,在为所述关注点权值赋予时间权重,并通过计算得到的时间窗口键值,连续去除过期关注点。本发明专利技术可以在一定程度上将时间特性对网络论坛用户的影响体现到最终的相似性计算中,使得基于时间遗忘函数的关注点相似度分析算法能够很好捕捉话题时间演变趋势,并客观反映到相似度度量上,从而实现网络论坛相似度随时间变化的分析,进而对论坛的关注点变化情况进行捕捉。捉。捉。

【技术实现步骤摘要】
一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法


[0001]本专利技术涉及数据处理
,具体为一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法。

技术介绍

[0002]以百度贴吧为代表的网络论坛,与新浪微博等短文本社交平台,或抖音、快手等短视频社交平台有不同之处:每个贴吧以一个实体作为其名义上最为关注的内容而命名。
[0003]时事热点和流行文化经常随时间推移而发生改变,网络论坛中人们的关注点也会随之发生变化。一些关注点会逐渐被用户忘记,新的关注点会被补充进来,而也有一些关注点始终是用户感兴趣的对象。
[0004]发掘时间变化对网络论坛、用户及舆论情况的影响,能够进一步强化对网络态势的感知力与敏感程度,同样具有一定的研究价值。
[0005]正如其它网络舆情聚集的网上社交平台一样,网络论坛的关注点经常会随时间而改变。事实上对网络论坛关注响应快慢、持续时间是分析网络论坛舆论变化非常重要的特性之一。如何将这些反映了网络论坛用户的兴趣、爱好相关的信息的特性体现到论坛关注点的相似性计算中来,是需要研究的一个重要问题。
[0006]在基于TF

IDF的Simrank算法中,通过使用TF

IDF值代替词频作为图中边的权值,提升了词对网络论坛的关注点区分度,但是如同传统Simrank 关注点相似度算法一样,仍没有考虑时间在其中的影响。
[0007]所以我们提出了一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,以便于解决上述中提出的问题

技术实现思路

[0008]本专利技术的目的在于提供一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,以解决上述
技术介绍
提出的在基于TF

IDF的Simrank算法中,通过使用TF

IDF值代替词频作为图中边的权值,提升了词对网络论坛的关注点区分度,但是如同传统Simrank关注点相似度算法一样,仍没有考虑时间在其中影响的问题。
[0009]针对现有关注点相似度分析方法未考虑时间维度、时间分析方法难以动态调整的问题,本算法将时间窗口权值和时间遗忘权值进行结合,据此求得网络论坛发帖数据的时间权值,并将此与TF

IDF关注点权值结合,得出带有网络论坛时间特征权值的PTTF

IDF特征值,并通过Simrank算法计算出关注点相似度随时间变化情况。
[0010]为实现上述目的,本专利技术提供如下技术方案:一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,包括:分析网络论坛中帖子的发表时间数据,将网络论坛及用户关注点,随时间变化的思想,加入所述关注点权值计算过程;结合运用时间窗口及时间遗忘算法,在为所述关注点权值赋予时间权重,并通过计算得到的时间窗口键值,连续去除过期关注点。
[0011]优选的,本算法包括:结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算和基于语义和时间权重的Simrank关注点相似度算法。
[0012]优选的,所述结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算,包括以下步骤:
[0013]S10、通过使用基于时间变化率的时间窗口,为不断变化的文本数据设置一个新的权值;
[0014]S11、改良现有的基于时间窗口的关注点权重计算因过期数据带来的误差;
[0015]S12、基于时间变化率的时间窗口计算出平均时间变化率的权值;
[0016]S13、为时间窗口筛选过时数据提供键值的结合。
[0017]优选的,所述基于语义和时间权重的Simrank关注点相似度算法,包括以下步骤:
[0018]S20、通过使用基于时间窗口和时间遗忘特性的关注点权重计算方法得到权重;
[0019]S21、所述权重代替用户词频进行TF

IDF计算;
[0020]S22、与Simrank相似度计算方法结合,获取各网络论坛随时间变化而变化的关注点偏移轨迹。
[0021]优选的,在步骤S11中,为所述关注点权值赋予时间权重时,通过所述步骤10计算得到的时间窗口键值,不断去除过期关注点。
[0022]优选的,在步骤21中,将新获得的结合时间权重的TF

IDF计算结果称为PTTF

IDF,并将所述PTTF

IDF与Simrank相似度计算方法结合,获取各网络论坛随时间变化而变化的关注点偏移轨迹。
[0023]优选的,所述文本数据采集来自百度贴吧的实时数据和历史数据。
[0024]与现有技术相比,本专利技术的有益效果是:
[0025]本专利技术通过将基于时间观察窗口和时间遗忘特性的关注点权重计算结合到基于TF

IDF的Simrank算法中,得到基于时间遗忘特性的Simrank算法,可以在一定程度上将时间特性对网络论坛用户的影响体现到最终的相似性计算中,使得基于时间遗忘函数的关注点相似度分析算法能够很好捕捉话题时间演变趋势,并客观反映到相似度度量上,从而实现网络论坛相似度随时间变化的分析,进而对论坛的关注点变化情况进行捕捉。
附图说明
[0026]图1为本专利技术一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法的原理框架图;
[0027]图2为本专利技术一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法的整体流程图;
[0028]图3为主题贴吧随时间变化的关注点相似度折线图;
[0029]图4为g吧与(d吧

f吧)关注点相似度变化情况的示意图。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施条例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其
他实施例,都属于本专利技术保护的范围。
[0031]实施例1
[0032]请参阅图1

4,本专利技术提供一种技术方案:一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,通过将基于时间观察窗口和时间遗忘特性的关注点权重计算结合到基于TF

IDF的Simrank算法中,得到基于时间遗忘特性的Simrank算法,可以在一定程度上将时间特性对网络论坛用户的影响体现到最终的相似性计算中。
[0033]针对现有关注点相似度分析方法未考虑时间维度、时间分析方法难以动态调整的问题。该算法将时间窗口权值和时间遗忘权值进行结合,据此求得网络论坛发帖数据的时间权值,并将此与TF

IDF关注点权值结合,得出带有网络论坛时间特征权值的PTTF

IDF特征值,并通过Simrank算法计算出关注点相似度随时间变化情况。
[0034]本专利技术原理框架如图1所示,主要过程为结合时间窗口与艾宾浩斯遗忘函数的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对百度贴吧、基于时间遗忘函数的关注点相似度算法,其特征在于,包括:分析网络论坛中帖子的发表时间数据,将网络论坛及用户关注点,随时间变化的思想,加入所述关注点权值计算过程;结合运用时间窗口及时间遗忘算法,在为所述关注点权值赋予时间权重,并通过计算得到的时间窗口键值,连续去除过期关注点。2.根据权利要求1所述的针对百度贴吧、基于时间遗忘函数的关注点相似度算法,其特征在于,本算法包括:结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算和基于语义和时间权重的Simrank关注点相似度算法。3.根据权利要求2所述的针对百度贴吧、基于时间遗忘函数的关注点相似度算法,其特征在于,所述结合时间窗口与艾宾浩斯遗忘函数的文本关注点权重计算,包括以下步骤:S10、通过使用基于时间变化率的时间窗口,为不断变化的文本数据设置一个新的权值;S11、改良现有的基于时间窗口的关注点权重计算因过期数据带来的误差;S12、基于时间变化率的时间窗口计算出平均时间变化率的权值;S13、为时间窗口筛选过时数据提供键值的结合。4.根据权利要求2所述的针对百度贴吧、基于时间遗忘函数的关注点相似度算法,其特征在于,所述基于语...

【专利技术属性】
技术研发人员:沈池花巨星海闵宗茹陈曲刘丽娟刘錞周刚张明金杜俊丽陈龙龙
申请(专利权)人:上海瀛数信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1