当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于情绪分数和主题模型的区块链新闻可视化方法技术

技术编号:27477873 阅读:64 留言:0更新日期:2021-03-02 17:47
本发明专利技术提供一种基于情绪分数和主题模型的区块链新闻可视化方法,包括以下步骤:收集区块链新闻文本,处理得到语料库结构,其包括文本发布时间戳、文章标题、文本内容、阅读量、情绪标签和/或文本作者粉丝数;基于所述语料库结构计算所述区块链新闻文本的文本情绪分数;使用LDA主题模型提取所述区块链新闻文本的主题;利用计算得到的文本情绪分数,使用布林线方法进行重要新闻事件检测;构建所述区块链新闻事件的可视化系统,包括:情绪分数时间线、事件树、词云、主题模型可视化和主题文档映射;配置可交互式接口,用于用户以不同粒度获取重要新闻事件。本发明专利技术得到的交互式可视化系统能够以不同粒度、不同视图呈现出区块链重要新闻事件。新闻事件。新闻事件。

【技术实现步骤摘要】
score对得到的情绪分数进行标准化。
[0015]进一步的,步骤S3具体包括:
[0016]S31、对所述语料库结构中的语料文本进行预处理,包括:分词、停词过滤、术语词典和英文文本小写转换;
[0017]S32、根据预处理后的语料文本,使用基于在线变分贝叶斯算法的在线LDA并利用随机自适应策略更新主题的后置参数,多次训练后得到区块链新闻文本的主题。
[0018]进一步的,步骤S4具体包括:
[0019]S41、根据区块链新闻文本的阅读量和步骤S2中得到的文本情绪分数,计算合成功率参数P:
[0020]P=β|S|+(1-β)R
[0021]其中,R是新闻文本的阅读量,S是计算出的情绪分数值,β是调节两者权重的参数;
[0022]S42、根据合成功率参数P生成布林线,筛选出重要的新闻事件:
[0023]U=A(P,n)+bσ(P,n)
[0024]其中,U是布林线的上界,A(P,n)是所选时间窗口内n个功率值的移动平均值,σ(P,n)是所选时间窗口内n个功率值的标准差,b是带宽,n是调整窗口大小的参数。
[0025]进一步的,步骤S5具体包括:
[0026]S51、情绪分数时间线的可视化:按时间粒度对文本情绪分数数据进行聚合,使用平均值作为聚合的结果,并使用线性组合权重的方法平滑曲线;
[0027]S52、事件树的可视化:以树形结构展示父事件和子事件,每个事件对应一个环圈图显示事件文本对应的属性:情绪、阅读量和作者的粉丝数;
[0028]S53、词云:展示所选时间范围内文本的词频;
[0029]S54、主题模型的可视化:集成基于web的LDAVIS,提供LDA模型的解释,主题和术语之间的关系通过相关性r来评估:
[0030]r(w,k|λ)=λlog(φ
kw
)+(1-λ)log(φ
kw
/p
w
)
[0031]其中,φ
kw
表示术语w∈{1,...,V}对话题k∈{1,...,K}的概率,V为术语总数,K为话题数,p
w
表示术语w在语料库中的边缘概率,λ为自由权重;
[0032]S55、主题文档映射:存储LDA模型中文档-主题权重,通过文本-主题权重训练t-SNE模型来获取和存储不同数量主题的坐标。
[0033]进一步的,步骤S6具体包括:
[0034]S61、根据用户输入的时间范围,基于给定时间范围内新闻文本的数量选择粒度;
[0035]S62、以红点的形式呈现重要新闻事件,通过主题文档映射将所述给定时间范围内的所有新闻文本在二维空间中可视化,并通过词云将文本中的高频词汇可视化;
[0036]S63、基于用户在红点处的鼠标指针悬停动作,将悬停红点窗口内对应的文档在主题文档映射中标注为黑点;
[0037]S64、基于用户在红点处的点击动作,根据该红点对应的新闻事件选择时间范围和粒度,初始化树状视图并同步更新词云视图,并基于该新闻事件的文本改变主题文档映射的可视化效果;
[0038]S65、当用户点击选择红点对应的新闻事件后,对该新闻时间中的重要事件进行检测,并将检测到的重要事件在情绪分数事件线视图中标记为红点,直至达到最细粒度或者
没有检测到事件时,结束分析。
[0039]相比现有技术,本专利技术的优点为:
[0040]使用了自然语言处理中前沿的BERT将文本嵌入为向量,构建基于BiLSTM深度学习网络,能够有效可信地计算文本的情绪分数;设计出一个整合了文本主题模型,文本模式分析和文本情绪线的可视化框架,从多个角度全面分析探索互联网新闻事件;系统所有的视图同步与用户进行交互,根据用户所选粒度或所关注事件,各个视图同步进行变化,使得用户能够以不同粒度、不同事件的角度探索新闻事件变化;系统的各个部分的设计如情绪分数的计算、LDA模型的可视化都均衡考虑了计算复杂度、准确度和实时性,使得系统具有更强的可用性。
附图说明
[0041]图1为本专利技术的基于情绪分数和主题模型的区块链新闻可视化方法的流程图。
[0042]图2为本专利技术的基于情绪分数和主题模型的区块链新闻可视化方法的计算情绪分数时使用的深度学习神经网络图。
具体实施方式
[0043]为了进一步理解本专利技术,下面结合实施例对本专利技术优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本专利技术的特征和优点,而不是对本专利技术权利要求的限制。
[0044]一种基于情绪分数和主题模型的区块链新闻可视化方法,其流程如图1所示,包括以下步骤:
[0045]S1、收集区块链新闻文本,处理得到语料库结构,其包括文本发布时间戳、文章标题、文本内容、阅读量、情绪标签和/或文本作者粉丝数;
[0046]S2、基于所述语料库结构计算所述区块链新闻文本的文本情绪分数;
[0047]S3、使用LDA主题模型提取所述区块链新闻文本的主题;
[0048]S4、利用步骤S1计算得到的文本情绪分数,使用布林线方法进行重要新闻事件检测;
[0049]S5、构建所述区块链新闻事件的可视化系统,包括:情绪分数时间线、事件树、词云、主题模型可视化和主题文档映射;
[0050]S6、配置可交互式接口,用于用户以不同粒度获取新闻事件。
[0051]在一示出实施例中,步骤S1具体为:从不同的新闻媒体中收集区块链新闻文本,包含中英两种语言的新闻,丢弃少于20词的文本,并将文本以时间顺序排序。处理收集的区块链文本语料得到语料库结构:文本发布时间戳、文章标题、文本内容、阅读量、情绪标签和文本作者粉丝数。
[0052]在一示出实施例中,步骤S2中的深度学习神经网络如图2所示,具体过程为:
[0053]S21、将所述语料库结构中的语料以句子为单位输入到BERT-as-a-service中,降维后获得768维的句子向量,即图2中的Sentence embeddings;
[0054]S22、将S21中获得的句子向量输入到堆叠两层的BiLSTM网络得到张量,将所述张量通过池化层和全连接层,随后使用softmax得到文本情绪分数;
[0055]S23、对于正面情绪,将输出的文本情绪分数乘以+1,反之,乘以-1;然后使用z-score对得到的情绪分数进行标准化。
[0056]在一示出实施例中,步骤S3具体包括:
[0057]S31、对所述语料库结构中的语料文本进行预处理,包括:使用Jieba模块处理中文语体,使用NLTK处理英文语体。随后,过滤掉停词,并将特定领域的术语加入到词典中,例如,区块链领域的Bitcoin、Dapp。对于英文语体,所有的单词也会转换为小写;
[0058]S32、根据预处理后的语料文本,使用基于在线变分贝叶斯算法的在线LDA并利用随机自适应策略更新主题的后置参数,多次训练后得到区块链新闻文本的主题。
[0059]在一示出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于情绪分数和主题模型的区块链新闻可视化方法,其特征在于,包括以下步骤:S1、收集区块链新闻文本,处理得到语料库结构,其包括文本发布时间戳、文章标题、文本内容、阅读量、情绪标签和/或文本作者粉丝数;S2、基于所述语料库结构计算所述区块链新闻文本的文本情绪分数;S3、使用LDA主题模型提取所述区块链新闻文本的主题;S4、利用步骤S1计算得到的文本情绪分数,使用布林线方法进行重要新闻事件检测;S5、构建所述区块链新闻事件的可视化系统,包括:情绪分数时间线、事件树、词云、主题模型可视化和主题文档映射;S6、配置可交互式接口,用于用户以不同粒度获取新闻事件。2.根据权利要求1所述的基于情绪分数和主题模型的区块链新闻可视化方法,其特征在于,步骤S2具体包括:S21、将所述语料库结构中的语料以句子为单位输入到BERT-as-a-service中,降维后获得768维的句子向量;S22、将S21中获得的句子向量输入到堆叠两层的BiLSTM网络得到张量,将所述张量通过池化层和全连接层,随后使用softmax得到文本情绪分数;S23、对于正面情绪,将输出的文本情绪分数乘以+1,反之,乘以-1;然后使用z-score对得到的情绪分数进行标准化。3.根据权利要求1所述的基于情绪分数和主题模型的区块链新闻可视化方法,其特征在于,步骤S3具体包括:S31、对所述语料库结构中的语料文本进行预处理,包括:分词、停词过滤、术语词典和英文文本小写转换;S32、根据预处理后的语料文本,使用基于在线变分贝叶斯算法的在线LDA并利用随机自适应策略更新主题的后置参数,多次训练后得到区块链新闻文本的主题。4.根据权利要求1所述的基于情绪分数和主题模型的区块链新闻可视化方法,其特征在于,步骤S4具体包括:S41、根据区块链新闻文本的阅读量和步骤S2中得到的文本情绪分数,计算合成功率参数P:P=β|S|+(1-β)R其中,R是新闻文本的阅读量,S是计算出的情绪分数值,β是调节两者权重的参数;S42、根据合成功率参数P生成布林线,筛选出重要的新闻事件:U=A(P,n)+bσ(P,n)其中,U是布林线的上界,A(P,n)是所选时间窗口内n个功率值的移动平均值,σ(P,n)是所选时...

【专利技术属性】
技术研发人员:张宏鑫徐津涛谢光桓
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1