System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及舆情分析,尤其涉及一种券商信评场景下的舆情聚类方法、系统、电子设备及介质。
技术介绍
1、在现代金融市场中,券商的信用评价环节至关重要。公司及其业务活动的舆情信息对于评估其信用状况、市场表现和未来潜力有着重要影响。传统的舆情分析方法主要依赖人工分类和基础的文本分析工具,效率低下且无法有效处理大规模数据,导致信息分析的准确性和及时性不足。
2、目前业界有以下几种舆情聚类方法:
3、1.传统文本聚类方法
4、基于关键词的聚类方法依赖于文本中出现的关键词来进行聚类。这些方法通常利用词频(tf)、逆文档频率(idf)等统计特征来代表文本,然后应用传统的聚类算法k-means等。该方法实现简单,但是依赖于关键词的选择,难以捕捉语义信息,对于文本的多义性和上下文关系处理较差。
5、2.基于词嵌入的文本聚类
6、基于词嵌入的文本聚类是一种利用词向量表示来捕捉文本语义信息的聚类方法。首先通过训练词向量模型(如word2vec、glove),可以将每个词映射为一个高维向量表示。这些向量捕捉了词语之间的语义关系,如相似性和关联性。然后对文本进行预处理,包含文本清洗、分词、去停用词等。文本处理完成后会获取一批词,使用预训练的词向量模型可以生成对应的词嵌入,通过将这些词嵌入组合生成文本的向量表示。该方法能够有效捕捉词语的语义关系,但是词向量是静态的,无法处理多义词、句子层面的语义信息。
7、3.基于深度学习的文本聚类
8、基于深度学习的文本聚类通过深度神经
9、近年来,随着自然语言处理技术的飞速发展,基于机器学习的文本分析方法在舆情分析中得到了广泛应用。然而,现有技术方案仍然存在局限性,尤其是在处理特定领域的舆情时。一方面,当前的预训练模型大多基于通用语料进行训练,直接应用于金融领域时,效果并不理想。生成的向量难以准确表达文本的深层语义,从而影响聚类的准确性。另一方面,传统的聚类方法通常依赖固定时间窗口,未能充分考虑舆情随时间动态变化的特性,导致难以捕捉舆情的连贯性。因此,迫切需要一种更加智能且灵活的舆情聚类方法,能够结合金融领域的特定需求,提升舆情分析的效率与精度。
技术实现思路
1、本专利技术提供了一种券商信评场景下的舆情聚类方法、系统、电子设备及介质,能够提高聚类的准确性。
2、根据本专利技术的一方面,提供了一种券商信评场景下的舆情聚类方法,包括:
3、从各信息源获取第一文本数据;
4、基于所述第一文本数据的内容与企业的关联性,将所述第一文本数据归类到对应的企业维度下;
5、将所述第一文本数据输入到训练好的指纹生成模型中,输出文章指纹向量;
6、从属于同一企业的第一舆情类别中筛选出还在窗口有效期内的第二舆情类别;
7、分别计算同一企业每一所述第二文本数据的所述文章指纹向量与各所述第二舆情类别的中心向量之间的相似度;同一企业包括不同的舆情类别;
8、基于所述相似度将每一所述第二文本数据归类到对应的所述第二舆情类别。
9、可选的,在所述将所述第一文本数据输入到训练好的指纹生成模型中,输出文章指纹,之前还包括:
10、获取多个金融领域的历史文本数据,对所述历史文本数据进行标注;
11、将所述历史文本数据与所述历史文本数据对应的标注标签作为一个样本,构建数据集;
12、基于所述数据集训练所述指纹生成模型,得到训练好的所述指纹生成模型。
13、可选的,所述窗口有效期的长度至少与各所述第一舆情类别中文本数据的数量、所述第一舆情类别中文本数据的时间跨度天数、窗口默认有效期长度相关。
14、可选的,所述窗口有效期的长度v的计算公式为:
15、
16、式中,d为窗口默认有效期长度;w为窗口系数;n为所述第一舆情类别中文本数据的数量;t为所述第一舆情类别中文本数据的时间跨度天数;max()为最大值选取公式。
17、可选的,所述基于所述相似度将每一所述第二文本数据归类到对应的所述第二舆情类别,包括:
18、从一所述第二文本数据的所述文章指纹向量与不同的所述第二舆情类别的中心向量之间的相似度中获取相似度最大值;
19、当相似度最大值大于预设阈值时,将一所述第二文本数据划分到相似度最大值所对应的所述第二舆情类别;
20、当相似度最大值小于预设阈值时,则生成新的舆情类别,并将一所述第二文本数据归类到新的舆情类别。
21、可选的,还包括:
22、当将一所述第二文本数据划分到相似度最大值所对应的所述第二舆情类别之后,将一所述第二文本数据的所述文章指纹向量加入到对应的所述第二舆情类别的向量集中,重新选取更新后的所述第二舆情类别的中心向量;
23、当相似度最大值小于预设阈值时,则生成新的舆情类别,将一所述第二文本数据的所述文章指纹向量作为中心向量。
24、可选的,在所述从各信息源获取第一文本数据,之后还包括:
25、将所述第一文本数据进行预处理;
26、所述预处理至少包括将所述第一文本数据转换成统一格式,将所述第一文本数据进行数据清洗和去噪。
27、本专利技术的第二方面,提供了一种券商信评场景下的舆情聚类系统,包括:
28、第一数据获取单元,用于从各信息源获取第一文本数据;
29、归类单元,用于基于所述第一文本数据的内容与企业的关联性,将所述第一文本数据归类到对应的企业维度下;
30、指纹生成单元,用于将所述第一文本数据输入到训练好的指纹生成模型中,输出文章指纹向量;
31、筛选单元,用于从属于同一企业的第一舆情类别中筛选出还在窗口有效期内的第二舆情类别;
32、相似度计算单元,分别计算同一企业每一所述第二文本数据的所述文章指纹向量与各所述第二舆情类别的中心向量之间的相似度;同一企业包括不同的舆情类别;
33、第二归类单元,用于基于所述相似度将每一所述第二文本数据归类到对应的所述第二舆情类别。
34、本专利技术的第三方方面还提供了一种电子设备,包括至少一个处理器;以及
35、与所述至少一个处理器通信连接的存储器;其中,
36、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行券商信评场景下的舆情聚类方法。
37、本专利技术的第四方面还提供了一种计算机可读存储介质,本文档来自技高网...
【技术保护点】
1.一种券商信评场景下的舆情聚类方法,其特征在于,包括:
2.根据权利要求1所述的券商信评场景下的舆情聚类方法,其特征在于,在所述将所述第一文本数据输入到训练好的指纹生成模型中,输出文章指纹,之前还包括:
3.根据权利要求1所述的券商信评场景下的舆情聚类方法,其特征在于,所述窗口有效期的长度至少与各所述第一舆情类别中文本数据的数量、所述第一舆情类别中文本数据的时间跨度天数、窗口默认有效期长度相关。
4.根据权利要求1所述的券商信评场景下的舆情聚类方法,其特征在于,所述窗口有效期的长度v的计算公式为:
5.根据权利要求1所述的券商信评场景下的舆情聚类方法,其特征在于,所述基于所述相似度将每一所述第二文本数据归类到对应的所述第二舆情类别,包括:
6.根据权利要求5所述的券商信评场景下的舆情聚类方法,其特征在于,还包括:
7.根据权利要求5所述的券商信评场景下的舆情聚类方法,其特征在于,在所述从各信息源获取第一文本数据,之后还包括:
8.一种券商信评场景下的舆情聚类系统,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的券商信评场景下的舆情聚类方法。
...【技术特征摘要】
1.一种券商信评场景下的舆情聚类方法,其特征在于,包括:
2.根据权利要求1所述的券商信评场景下的舆情聚类方法,其特征在于,在所述将所述第一文本数据输入到训练好的指纹生成模型中,输出文章指纹,之前还包括:
3.根据权利要求1所述的券商信评场景下的舆情聚类方法,其特征在于,所述窗口有效期的长度至少与各所述第一舆情类别中文本数据的数量、所述第一舆情类别中文本数据的时间跨度天数、窗口默认有效期长度相关。
4.根据权利要求1所述的券商信评场景下的舆情聚类方法,其特征在于,所述窗口有效期的长度v的计算公式为:
5.根据权利要求1所述的券商信评场景下的舆情聚类方法,其特征在于...
【专利技术属性】
技术研发人员:陈进,潘进,方军军,刘雯静,徐唐锋,文聪,张明,屠鹏博,
申请(专利权)人:长江证券股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。