System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能,尤其涉及一种基于多模态特征的链上数字内容舆情传播预警方法。
技术介绍
1、区块链具有去中心化、不可篡改、匿名性等特性,现存的公有区块链较为热门的链上数字内容通常以合约代码形式(如erc-721、erc1155等)存在,兼具有内容属性和金融属性的特征。
2、用户发布链上数字内容无需经过第三方审核,一旦相关话题在社交平台传播发酵,可能存在较大的舆情风险,危害网络环境,称作链上数字内容舆情。因此,相关话题在社交平台的传播将对于区块链监管带来十足的挑战,目前尚未有公开的解决方法。在相近的研究领域,传统舆情分析方法已经能够对社交平台上的推文内容进行语义理解和分析。比如,通过深度学习方法学习句子的特征表示,可以有效提取语义特征用于下游任务,进行情感分析、文本分类等任务;基于主题模型的聚类方法,能够过滤出包含链上数字内容风险信息的推文供监管人员后续分析;但是,传统舆情监测的维度大多限于推文内容本身,缺乏对舆情传播的时间发展维度的关注。
3、另外,链上数字内容特有的资产属性,对舆情传播具有显著的影响,也是需要考虑的影响因素。
技术实现思路
1、针对现有技术的不足,本专利技术提供了一种基于多模态特征的链上数字内容舆情传播预警方法,该方法针对待监管的链上数字内容,将其交易模态、文本模态、动量模态时序特征序列作为输入并建模,输出未来是否存在舆情传播预警信号。
2、本专利技术的技术方案如下:一种基于多模态特征的链上数字内容舆情传播预警方法,包括以
3、(1)舆情传播预警信号定义和数据标签制作阶段,具体包括以下子步骤:
4、(1.1)收集数据集:使用twitter api、微博api或网页页面爬虫,收集指定链上数字内容相关话题的推文文本数据、推文转评赞数据和区块链上交易记录数据得到所需的数据集;计算数据集中所有单条推文舆情传播度iid;
5、(1.2)计算每一个链上数字内容c相在d日的单日舆情传播指数ic,d:在第d日,链上数字内容c的推文集合sc,d中,将自定义阈值单条推文舆情传播度iid大于自定义阈值n的推文集合的基数作为单日舆情传播指数;所述自定义阈值n能够根据实际监控的链上数字内容c进行调整,其表达式为:ic,d=|{iid>n}|,id∈sc,d;
6、(1.3)舆情传播预警信号生成:针对链上数字内容c的单日舆情传播指数序列,首先计算该序列的短期移动平均线ma(n1)和长期移动平均线ma(n2),其中n1<n2,然后以w(w>>n2)天为一个周期进行滑窗,通过孤立森林模型对该窗口的舆情传播指数进行离群值分析,得到离群点集合;筛选离群点集合中单日舆情传播指数高于ma(n2)的点作为舆情传播预警信号,即正样本,其余均为负样本;
7、(1.4)舆情传播预警信号噪音过滤和信号延拓:针对链上数字内容c的每日舆情传播指数序列,标记存在于两个正样本之间的日期为正样本,至多标记两个;如果正样本之后日期的单日舆情传播指数仍然高于ma(n1)移动平均线,则将其标记为正样本,至多标记三个;
8、(2)多模态数据预处理阶段,具体包括以下子步骤:
9、(2.1)针对链上数字内容c,设置预警模型的观测窗口共d日,预测在t日是否会出现突发舆情传播预警信号;预警模型将于t日零时起,开始处理前d日的多模态数据;
10、(2.2)构建交易模态前d日的时间序列特征其包含总共d日的链上数字内容交易数据,每天的链上数字内容交易数据包含链上数字内容c最早交易价格、最晚交易价格、最高价、最低价、买入交易量、卖出交易量共6维特征,形成时间序列表示
11、(2.3)构建文本模态前d日的时间序列特征预警模型获取到总共d日的与该链上数字内容相关的推文后,借助情绪vad词典,查询每条推文中词语级别的vad分数,将各词语查询的结果在警觉度v、唤醒度a和受支配程度d三个维度上相加,得到句子级别vad分数,同时记录该推文的长度l,记作该条推文的vad-l特征,共计4维;计算每一天所有推文在vad-l特征4个维度上的3个聚合表示数据:平均值、25%分位数值、75%分位数值,最终拼接得到文本数据的特征表示形成时间序列表示
12、(2.4)构建动量模态前d日的时间序列特征其包含总共d日链上数字内容c的单日舆情传播指数,记作形成时间序列表示
13、
14、(2.5)对提取得到的各模态时间序列特征在时间维度上进行数据标准化处理;
15、(3)时序数据建模阶段,具体为:使用双曲空间下的门控循环单元分别对三种模态数据进行时序编码,捕捉数据的时序幂律分布和无标度性质;
16、(4)跨模态注意力阶段,具体为:构建跨模态注意力模块ca,对每一个链上数字内容c,通过两种不同模态m1,m2的隐层输出进行模态交互计算得到输出
17、
18、(5)时序注意力阶段,具体包括以下子步骤:
19、(5.1)在以t日为预警目标下,模态m的特征向量按照时间维度进行拼接,得到
20、
21、(5.2)构建时序注意力模块ta,对每一个链上数字内容c,根据各特征向量在时间序列中不同的时序位置,赋予不同的权重,在以t日为预警目标下,输入前d日的模态特征计算时序聚合特征向量
22、
23、(6)特征融合预警阶段,具体包括以下子步骤:
24、(6.1)选择动量模态和交易模态交互,构建交易预警模型etx,输出预测结果
25、(6.2)选择动量模态和文本模态交互,构建文本预警模型etext,输出预测结果
26、(6.3)使用focal loss损失函数分别训练文本预警模型etext和交易预警模型etx,etext和etx两个模型的参数不存在共享关系,判断t日是否会出现舆情传播预警信号;
27、(6.4)使用lightgbm学习器拼接etext和etx进入softmax前输出的知识表征,得到t日是否会出现舆情传播预警信号的最终判断
28、进一步地,所述步骤(1.1)中的单条推文舆情传播度id的元数据包含转发数、评论数、点赞数;其中转发数、评论数和点赞数三者相加等于单条推文舆情传播度。
29、进一步地,所述步骤(3.1)包括以下子步骤,具体如下:
30、(3.1.1)利用庞加莱圆盘模型对每一个模态m在以t日为预警目标的时间序列特征进行特征空间的映射,使用将时间序列特征从欧式空间映射至双曲空间,其中f为映射函数;
31、(3.1.2)双曲空间下门控循环单元表示为hgru(·),针对t时刻的双曲空间特征xt′,hgru(·)表达式如下:
32、
33、
34、
35、
36、其中,w,u,b为学习的权重,表示addition,表示multiplication;
本文档来自技高网...
【技术保护点】
1.一种基于多模态特征的链上数字内容舆情传播预警方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多模态特征的链上数字内容舆情传播预警方法,其特征在于,所述步骤(1.1)中的单条推文舆情传播度id的元数据包含转发数、评论数、点赞数;其中转发数、评论数和点赞数三者相加等于单条推文舆情传播度。
3.根据权利要求1所述的一种基于多模态特征的链上数字内容舆情传播预警方法,其特征在于,所述步骤(3.1)包括以下子步骤,具体如下:
4.根据权利要求1所述的一种基于多模态特征的链上数字内容舆情传播预警方法,其特征在于,所述步骤(4.1)中的构建注意力模块CA,具体包括以下子步骤:
5.根据权利要求1所述的一种基于多模态特征的链上数字内容舆情传播预警方法,其特征在于,所述步骤(5.2)的注意力模块TA构建包括以下子步骤:
【技术特征摘要】
1.一种基于多模态特征的链上数字内容舆情传播预警方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多模态特征的链上数字内容舆情传播预警方法,其特征在于,所述步骤(1.1)中的单条推文舆情传播度id的元数据包含转发数、评论数、点赞数;其中转发数、评论数和点赞数三者相加等于单条推文舆情传播度。
3.根据权利要求1所述的一种基于多模态特征的链上数字内容舆...
【专利技术属性】
技术研发人员:尹可挺,孙夏恩,冯天,陈依苓,鲁兴,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。