System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多特征融合的群组线索发现方法技术_技高网

一种基于多特征融合的群组线索发现方法技术

技术编号:44492038 阅读:0 留言:0更新日期:2025-03-04 17:57
本公开提供一种基于多特征融合的群组线索发现方法。包括两部分:基于多特征融合的重点群组识别模块和重点群组线索发现模块;基于多特征融合的重点群组识别模块经过位置编码后的词嵌入序列被输入到多层Transfor mer网络中利用自注意力机制进行深度特征提取;之后设计多专家混合模型对码值特征、文本特征的表征、降维后的统计特征进行特征融合与判别,具体而言,设计门控机制通过对输入特征进行分析,生成每个专家网络的加权系数,所述重点群组线索发现模块接收所述多专家混合模型的运算结果,通过基于大模型提示的文本线索发现和滑动窗口时序线索发现方法实现筛选重点组群,并得到组群筛选结果。

【技术实现步骤摘要】

本公开涉及计算机领域,更具体地讲,涉及一种基于多特征融合的群组线索发现方法


技术介绍

1、由于平台数据复杂性、多样性、实时性等特点导致的平台中流媒体信息传播媒介多样化,关键信息数据分布稀疏、占比极低、离散隐蔽等特点,这增加了平台中群组识别和获取群组线索的难度。此外,平台中的线索群组数据通常以多维度特征的形式出现,诸如文本、码值、统计信息等,而现有的方法大部分是对各类特征进行交互表征,并根据统一的表征来抽取多维度特征数据中的关键线索,但不同类别特征数据之间存在语义上的差别,因此现有方法难以学习到具有强关联属性的多维度特征,并且无法利用不同类别特征之间的内在联系和依赖关系辅助关键线索发现,从而导致模型抽取群组多维度特征的效果变差。


技术实现思路

1、本公开的实施例的目的在于提供一种基于多特征融合的群组线索发现方法,本专利技术的主要研究目标是更高效地识别和分析关键群体。

2、首先,本专利技术通过综合分析文本、编码值、统计信息等多种特征,识别出重点群组。这些特征包括但不限于文本语义特征、数值编码特征,以及从历史数据中提取的统计特征等。通过多维度的信息分析方法,避免了仅依赖单一特征的局限性,从而显著提升了重点群组识别的准确性和可靠性。

3、在识别出重点群组后,本专利技术进一步结合大模型和时序信息,对群组中的数据进行深度挖掘,以发现隐藏的重要线索。大模型的应用使本专利技术能够处理和理解复杂的模式和关系,而时序信息的分析则能够捕捉数据在时间维度上的动态变化,从而识别在特定时间点或时间段内表现突出的线索。通过这种方法,本专利技术不仅可以发现潜在的重要信息,还能够预测和解释这些信息的演变趋势,为后续决策提供有力的支持。

4、在一个总的方面,提供一种基于多特征融合的群组线索发现方法,包括两部分:基于多特征融合的重点群组识别模块和重点群组线索发现模块;

5、所述基于多特征融合的重点群组识别模块首先利用gpt模型对社交平台上的群组文本数据进行提取,并对所述文本数据进行预处理,将文本数据转化为词嵌入表示;

6、接着,经过位置编码后的词嵌入序列被输入到多层transformer网络中利用自注意力机制进行深度特征提取,计算公式为:

7、

8、其中q表示查询矩阵,表示当前词对其他词的关注程度。每个词的位置都会生成一个查询向量,用于寻找与其相关的词。k表示键矩阵,表示词的特征或内容。每个词的位置都会生成一个键向量,用于与查询向量(q)进行匹配,从而确定关联性。v表示值矩阵,表示词的值或输出信息。每个词的位置生成一个值向量,表示该词的内容信息,将被加权汇总成输出。dk表示键向量k的维度,是一个归一化因子,用于缩小点积结果的值范围,避免过大的数值导致softmax函数趋近于饱和,从而失去区分度。t表示矩阵的转置键矩阵k的转置矩阵;所述深度特征包括码值特征、文本特征、统计特征;

9、所述多专家混合模型首先对文本特征、码值特征和统计特征分别建立独立的专家网络处理,每个所述专家网络都是一个多层感知机,对文本特征生成表征,对统计特征进行降维;之后设计多专家混合模型对码值特征、文本特征的表征、降维后的统计特征进行特征融合与判别,具体而言,设计门控机制通过对输入特征进行分析,生成每个专家网络的加权系数,并根据输入特征的重要性,动态地调整各个专家网络的输出权重;最终所有专家网络的输出通过加权求和的方式进行融合,生成综合的特征表示,融合公式具体为:

10、

11、其中,n是专家网络的数量,ffinal是融合后的最终特征表示;

12、所述重点群组线索发现模块接收所述多专家混合模型的运算结果,通过基于大模型提示的文本线索发现和滑动窗口时序线索发现方法实现筛选重点组群,并得到组群筛选结果。

13、所述码值特征的分析方法为:关注在多个群组中重复出现或具有明显指向性的码值;

14、所述统计特征的分析方法为:使用多层感知机模型将所有统计特征进行融合,生成最终的统计特征表示,计算公式如下:

15、fstat=σ(w×x+b)

16、其中,x为输入的统计特征向量,w为权重矩阵,b为偏置,σ为激活函数。

17、所述基于大模型提示的文本线索发现通过利用预训练的语言模型并设计合适的prompt,模型在处理prompt时,综合考虑文本中的词汇频率、语义关联以及情感表达,从而生成包含关键信息的输出,从而挖掘出与群组行为密切相关的文本线索,线索包括群组的章程、情感倾向、常见主题、热点关键词及交流风格。

18、所述滑动窗口时序线索发现方法通过对社交平台群组活动的时间维度进行动态分析,识别特定行为,具体而言,将数据分成相互重叠的时间段,每个时间段内独立分析群组的发言频率、关键词使用情况和用户活跃度指标,捕捉群组内的突发行为和热点活动;

19、针对两个群组在不同时间段的活动模式进行相似性判别,引入动态时间规方法衡量两个群组的时间序列相似性,通过计算群组间活动模式的最小距离,识别在不同时间段内具有类似活动特征的群组,计算公式为:

20、

21、其中,x[i]和y[j]分别表示两个时间序列x和y在第i和j个时间点的值,n是时间序列的长度

22、本专利技术实施例的创新之处在于:

23、本专利技术在多个维度上提升了群组识别的准确性和反应速度。通过结合文本、码值和统计特征,实现了对群组的全方位分析,有效解决了现有技术中存在的单一特征分析带来的局限性。此外,时序分析模块能够及时捕捉热点事件中的群组活动,具有更高的热点性和实时性。

本文档来自技高网...

【技术保护点】

1.一种基于多特征融合的群组线索发现方法,其特征在于,包括两部分:基于多特征融合的重点群组识别模块和重点群组线索发现模块;

2.如权利要求1所述的一种基于多特征融合的群组线索发现方法,其特征在于,所述码值特征的分析方法为:关注在多个群组中重复出现或具有明显指向性的码值;

3.如权利要求2所述的一种基于多特征融合的群组线索发现方法,其特征在于,所述基于大模型提示的文本线索发现通过利用预训练的语言模型并设计合适的Prompt,模型在处理Prompt时,综合考虑文本中的词汇频率、语义关联以及情感表达,从而生成包含关键信息的输出,从而挖掘出与群组行为密切相关的文本线索,线索包括群组的章程、情感倾向、常见主题、热点关键词及交流风格。

4.如权利要求3所述的一种基于多特征融合的群组线索发现方法,其特征在于,所述滑动窗口时序线索发现方法通过对社交平台群组活动的时间维度进行动态分析,识别特定行为,具体而言,将数据分成相互重叠的时间段,每个时间段内独立分析群组的发言频率、关键词使用情况和用户活跃度指标,捕捉群组内的突发行为和热点活动;

【技术特征摘要】

1.一种基于多特征融合的群组线索发现方法,其特征在于,包括两部分:基于多特征融合的重点群组识别模块和重点群组线索发现模块;

2.如权利要求1所述的一种基于多特征融合的群组线索发现方法,其特征在于,所述码值特征的分析方法为:关注在多个群组中重复出现或具有明显指向性的码值;

3.如权利要求2所述的一种基于多特征融合的群组线索发现方法,其特征在于,所述基于大模型提示的文本线索发现通过利用预训练的语言模型并设计合适的prompt,模型在处理prompt时,综合考虑...

【专利技术属性】
技术研发人员:汤星詹嘉措景堃
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1