本发明专利技术提出了一种微博平台上针对大宗商品舆情信息的基于用户行为特征的识别恶意主体的方法,首先选定源头节点搜集转发信息构建舆情传播网络,根据网络中用户的关注信息构建用户关注关系图,随后使用社区发现算法对关注关系图进行划分,选择其中密度最高的团体作为后续待检测样本,接着搜集待检测样本用户从最近日期起的N条微博,构建用户行为特征,最后使用聚类算法根据行为特征将待检测样本聚成两类,计算特征在每一类中的均值,进行标准化后相加得到综合属性值,判定属性值较大的一方为存在恶意倾向的维权用户。本发明专利技术不依赖于已标识的数据集,减少了人工因素对最终结果的影响,且识别结果取决于用户本身的行为,具有更高的适应性与灵活性。高的适应性与灵活性。高的适应性与灵活性。
【技术实现步骤摘要】
微博中针对大宗商品舆情信息的恶意主体识别方法
[0001]本专利技术涉及一种微博平台中针对大宗商品舆情信息的恶意主体识别技术,属于大宗商品电子商务监管
技术介绍
[0002]随着大宗商品交易的蓬勃发展,投资者密切关注交易所中大宗商品交易实况,互联网社交平台中相关信息日益增多,影响力也逐渐扩大。我国大宗商品市场正向专业化、规范化方向转型升级,但仍然存在一些问题,部分交易所出现非法集资、仓单造假、违规挪用保证金等乱象,致使信用危机频发。如果不能及时处理这些问题引发的负面舆情,经过传播和放大后易酿成危机事件,从而又将加重舆情的消极影响,陷入不断恶化的循环。除了由于交易所自身问题导致的负面舆情,恶意维权同样是交易所负面舆情的一大来源。这类敲诈勒索式恶意维权事件不仅引发网络暴力,更严重干扰了各交易所的正常运营,对其声誉信誉造成了极大的损害。因此,对各交易所而言,需要及时发现与己相关的舆情信息,识别事件中的恶意主体,避免或减少舆情事件对其造成的影响。
[0003]在开放性较高的社交平台中,各个大宗商品交易所的舆情信息,除少量官方发布外,普通用户的发布占比更多,而相比于开放性较低的社交平台,普通用户在高开放性的平台中发布的交易所的舆情大多关于投资亏损的发泄或维权。普通用户的个人力量大多有限,因此常倾向于选择与有相似近况的人聚集抱团维权以扩散事件的影响力,所以维权团体之间大多会互相关注以便及时联系。通常,为了达到增加热度的效果,恶意维权用户会不断地转发含交易所相关信息的微博并在微博中添加多种标签,甚至会对同一条微博多次转发以达到扩散的目的,其行为和水军存在一定的相似之处,因此,在对用户进行行为特征刻画时可以在一定程度上参考水军的行为模式。
[0004]当前网络水军检测技术目前大致可分为有监督、半监督和无监督三个方面,有监督方法准确率高,但需要以存在精确标签的数据集为基础,半监督方法降低了对已标记数据集的依赖,但在识别方面的适应性存在缺陷,无监督方法摒弃了已标记数据集,但存在识别正确率不高的问题且计算量相对较大。由于高开放性社交平台中大宗商品恶意维权团体信息不多,难以获取高精度的标注数据;同时,恶意维权账号背后大多为人工操作,有别于水军的机器操作,其特征与水军存在一定差别,因此,本文采取将用户行为与大宗商品舆情信息结合的无监督式恶意主体识别的方法。首先选择源头节点构建舆情传播网络,根据网络中节点的关注关系构建用户关系图,随后对该关系图进行社区发现识别维权团体,对于识别出的待检测样本,构建用户行为特征,通过聚类算法划分两类,并通过行为特征综合属性值识别出恶意维权倾向节点。本专利技术希望通过用户行为特征进行无监督式识别恶意主体,不依赖于已标识的数据集以减少人工因素对最终结果的影响,同时最终识别结果取决于用户自身行为,以期提高灵活性与适应性。
技术实现思路
[0005]为解决上述问题,本专利技术公开了一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,用以识别微博平台中有关大宗商品的恶意维权团体,以期避免或减少负面舆情信息的危害,维护大宗商品行业的良性发展。该检测方法分为四步:舆情传播网络与用户关注关系图构建、维权团体社区发现、用户行为特征构建、聚类与恶意维权用户识别。系统按序执行各个部分,实现无监督式识别恶意维权主体的功能,减少人为因素的影响,提升识别结果的客观性并提高系统的适应性与灵活性。
[0006]一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,包括以下步骤:
[0007]步骤(1):舆情传播网络与用户关注关系图构建。在微博中根据交易所名称或简称搜集相关舆情信息,选定源头节点后,搜集源头节点的转发数据,以用户为节点,若两者之间存在转发关系,则生成一条边,构建舆情传播网络。针对该网络中的各个节点,若两个用户之间存在关注关系,则生成一条边,从关注者指向被关注者,构建用户关注关系图。
[0008]步骤(2):维权团体社区发现。维权团体通常互相关注以便能够及时联系,其所在社区密度高于普通用户,本文进行社区发现算法选取密度最高的团体作为后续样本。首先选取入度和出度之和最高的节点作为中心节点,若度数之和最高的节点有多个则随机选择一个;根据微博含交易所名比例计算该中心节点的邻居节点与其的相似度,选取相似度最高的邻居节点与中心节点构成初始社区,若相似度最高的邻居节点有多个则全部选择;接着对社区的邻居节点计算其与社区内节点的平均相似度,选择值最大的节点作为待加入节点,并计算若加入形成新社区的模块度增益,如果增益大于等于0则将其加入社区,若有多个平均相似度最高的节点则依次进行上述判断。重复上述过程直至所有节点都属于某个社区。划分完社区后,计算每个社区的密度,选取密度最高的社区作为后续待检测样本。
[0009]步骤(3):用户行为特征构建。对于第二部分检测出的维权团体样本,搜集团体内每个用户从最近日期起的N条微博信息,构建用户行为特征。通常,恶意维权用户为了扩大事件的影响力,会采取和水军相似的行为,频繁转发相关维权信息或大量发布涉及相关交易所的信息。因而,本方案将从五个方面构建用户特征,包括交易所名频繁度、交易所名活跃度、交易所名显著度、相关标签平均数、相关文章出现率。其中,交易所名频繁度为含交易所名或简称的微博数与总微博数之比;交易所名活跃度为含交易所名或简称的微博间隔天数的方差的倒数;交易所名显著度为每天含交易所名或简称的微博占比的总和的均值;相关标签出现率为与交易所相关的标签的总数与总微博数之比;相关文章出现率为与交易所相关的文章链接数与总微博数之比。
[0010]步骤(4):聚类与恶意维权团体识别。根据每个用户的行为特征,使用k
‑
means++算法将样本聚成两类。分别计算五个特征在每个类中的均值,将其进行z
‑
score标准化后相加,得到两个综合属性值。恶意维权用户由于其大量转发扩散等行为,其综合属性值相比于普通用户较高,因此,判定综合属性值高的一类存在恶意倾向。
[0011]本专利技术有益效果:
[0012](1)减少人为因素对恶意识别结果影响采用无监督式恶意主体识别,根据用户关注关系判断用户抱团维权倾向,依据用户自身的行为判断用户的恶意倾向,减少对于人工标注数据的依赖,有效提升最终识别结果的客观性。
[0013](2)增强适应性与灵活性算法主要关注用户近期数据,获取较为容易并减少了历
史信息对当前恶意识别的干扰。维权团体的发现依赖于舆情传播网络中的用户关注关系与用户行为,聚类划分与恶意识别取决于用户自身的近期行为,有效减少对用户多维信息的需求,在数据规模较小的情况下,依旧能够支撑算法的运行,增强了系统的适应性与灵活性。
附图说明
[0014]图1是本专利技术的主要原理示意图;
[0015]图2是维权团体社区发现示意图。
具体实施方式
[0016]下面结合附图和具体实施方式,进一步阐明本专利技术,应理解下述具体实施方式仅用于说明本专利技术而不用于限制本专利技术的范围。需要说明的是,下面描述中使用的词语“前”、“本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,其特征在于:该方法包括以下步骤:步骤(1):舆情传播网络与用户关注关系图构建;步骤(2):用户关注关系图中维权团体社区发现;步骤(3):用户行为特征构建步骤(4):聚类与恶意主体识别。2.根据权利要求1所述的一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,其特征在于:步骤(1)中,首先根据交易所名称和简称搜集相关的舆情信息,选择源头节点,搜集转发数据,构建舆情传播网络:以用户为节点,若两个用户之间存在转发关系,则在两者之间形成一条边。随后针对舆情传播网络中的节点,搜集其相互之间的关注关系,构建用户关注关系图:以用户为节点,若两个用户之间存在关注关系,则在两者之间形成一条边,从关注者指向被关注者。3.根据权利要求1所述的一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,其特征在于:步骤(2)中,维权团体通常互相关注以便能够及时联系,其所在社区密度高于普通用户,本文进行社区发现算法选取密度最高的团体作为后续样本;首先选取入度和出度之和最高的节点作为中心节点,若度数之和最高的节点有多个则随机选择一个;计算该中心节点的邻居节点与其的相似度,选取相似度最高的邻居节点与中心节点构成初始社区,若相似度最高的邻居节点有多个则全部选择;接着对社区的邻居节点计算其与社区内节点的平均相似度,选择值最大的节点作为候选节点,并计算若加入形成新社区的模块度增益,如果增益大于等于0则将其加入社区,若有多个平均相似度最高的节点则依次进行上述判断;重复上述过程直至每个节点都属于某个社区;划分完社区后,计算每个社区的密度,选取密度最高的社区作为后续待检测样本。4.根据权利要求3所述的一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,其特征在于:所述步骤(2)中任意两个节点i和节点j的相似度计算公式如下:I(i,j)=neighbour(i)∩neighbour(j)U(i,j)=neighbour(i)∪neighbour(j)其中,i和j是用户关注关系图中的任意两个节点,Similarity(i,j)为节点i和j的相似度,neighbour(i)为节点i的邻居节点,I(i,j)是节点i和节点j的邻居节点的交集,U(i,j)是节点i和节点j的邻居节点的并集,ExchangeNameRate
k
为节点k在N条微博中含交易所名的微博所占比例;模块度增益的计算公式如下:
化简可得:其中,Σ
C
为社区内部的边数,为社区内部节点指向节点k的边数,为社区外部节点指向社区内部节点的边数,为社区内部节点指向社区外部节点的边数,为关系图中节点指向节点k的边数,为节点k指向关系图中节点的边数,m为关系图中所有边数;社区密度的计算公式如下:其中,N
c
为某个社区c包含的节点数,S
c
为该社区中实际存在的边数。5.根据权利要求1所述的一种微博平台中针对大宗商品舆情信息的恶意主体识别方法,其特征在于:步骤(3)中,对于识别出的维权团体,搜集团体内每个用户从最近日期开始的N条微博;结合大宗商品舆情信息对其进行如下行为特征构建:交易所名频繁度:其中,Num
en
为N条微博内含交易所名称或简称的微博数;交易所...
【专利技术属性】
技术研发人员:蒋嶷川,刘婷,狄凯,
申请(专利权)人:东南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。