System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种文档分析处理,尤其涉及一种电力行业文档的分类方法、系统、电子设备及可读存储介质。
技术介绍
1、在电力行业,日常运营和管理过程中会产生大量的文档数据,例如运行报告、设备维护记录、故障分析报告、规程规范等,其在内容、格式、语义上具有广泛的多样性,并且这些文档记载了丰富的文本信息,需要进行高效的分类与分析,以支持决策和运营管理。
2、目前,电力行业文档的处理主要依赖于关键字匹配技术或规则引擎技术。在关键字匹配技术中,依赖于预先定义的关键字集合,对文档内容进行分析并匹配对应的类别。然而,由于电力行业文档中常常包含大量专业术语和复杂的技术表达,单纯的关键字匹配难以捕捉到文档的真正语义,当文档内容变化较大或使用了不同的语言表达方式时,匹配的准确性会显著下降,导致分类效果不理想。
3、在规则引擎技术中,通过预设的一系列分类规则(如正则表达式),对文档内容进行解析和分类。相比关键字匹配,规则引擎能够处理更加复杂的语法结构,并且可以根据规则的变化灵活调整分类策略。然而,随着文档类型和数量的增加,规则的扩展和管理变得非常困难,其次,规则引擎在面对格式多样化的文档时表现不佳,尤其是当文档包含非结构化数据时,规则引擎的分类效果会显著下降。
4、因此,为解决上述技术问题亟需提出一种新的技术手段。
技术实现思路
1、本申请提供一种电力行业文档的分类方法、系统、电子设备及可读存储介质,用以至少解决目前相关技术中依靠关键字匹配技术或规则引擎技术对电力行业文档
2、本专利技术提出的一种电力行业文档的分类方法,包括以下步骤:
3、s1.提取待识别的目标电力文档中的关键语义字段、文档结构信息和属性元数据信息;
4、所述关键语义字段是用于描述电力文档核心内容的信息;
5、所述文档结构信息是用于描述电力文档内容布局结构的信息;
6、所述属性元数据信息包含文档创建时间、编档人员信息、地理位置信息、文档数据量和文档访问权限设置;
7、s2.将关键语义字段、文档结构信息和属性元数据信息分别输入至语义特征提取模型、结构特征提取模型和元数据编码器中进行特征提取,得到电力文档的多模态特征组;
8、所述多模态特征组包括深层语义特征、文档结构化特征和元数据编码特征;
9、s3.将所述多模态特征组特征组输入至文档特征生成对抗式网络,得到相应的目标电力文档特征表示;
10、s4.基于文档分类器确定与所述目标电力文档特征表示相匹配的目标电力文档类型。
11、进一步,所述语义特征提取模型包含片段截取模块、bert模型模块和特征聚合模块;
12、所述片段截取模块用于从所述目标电力文档中截取各个关键语义字段所对应的上下文内容,并根据各个关键语义字段和相应的上下文内容构建各个语义片段;
13、所述bert模型模块用于对各个所述语义片段进行双向注意力机制编码,以分别确定相应的片段特征向量;
14、所述特征聚合模块用于对各个所述片段特征向量进行聚合,以确定相应的深层语义特征。
15、进一步,所述结构特征提取模型包含主题模型模块、结构树构建模块和tree-lstm模块;
16、所述主题模型模块用于将所述目标电力文档分割为多个主题块;
17、所述结构树构建模块用于对所述多个主题块进行主题层次分析,以确定对应多级主题层次的初始主题树结构,并通过所标注的文档结构信息对所述初始主题树结构进行优化以确定相应的结构树;
18、所述tree-lstm模块用于对所述结构树中的主题节点进行递归处理,通过逐层构建主题节点的隐状态表示,最终生成根节点的全局结构表示,以确定相应的文档结构化特征。
19、进一步,所述元数据编码器为类型感知编码器,用于识别所述属性元数据信息中各个元数据参数的数据类型,并根据所识别的数据类型对相应的元数据参数进行编码以得到相应的编码特征,通过拼接各个所述编码特征以得到相应的元数据编码特征。
20、进一步,所述文档特征生成对抗式网络的生成器包含输入层、跨模态特征转换模块、特征融合层、多头自注意力层和输出层;
21、所述输入层用于接收所述电力文档的多模态特征组;
22、所述跨模态特征转换模块用于对所述电力文档的多模态特征组进行跨模态特征转换,以得到相应的文档衍生特征组,转换方式如下:
23、
24、其中,和分别表示文档衍生特征组中的衍生结构特征、第一衍生语义特征和第二衍生语义特征,fs、ft和fm分别表示所述电力文档多模态特征组中的深层语义特征、文档结构化特征和元数据编码特征,σ表示激活函数,ws→t和bs→t分别表示用于将语义特征转换为结构特征表示的全连接层的权重矩阵和偏置项;wt→s和bt→s分别表示用于将结构特征转换为语义特征的全连接层的权重矩阵和偏置项;wm→s和bm→s分别表示用于将元数据特征转换为语义特征的全连接层的权重矩阵和偏置项;
25、所述特征融合层用于将所述文档衍生特征组与所述文档多模态特征组进行融合,以生成跨模态综合特征组,公式如下:
26、
27、其中,表示跨模态综合特征组,和分别表示跨模态综合特征组中的跨模态语义综合特征和跨模态结构综合特征,αs、βt、γm、αt和βs分别表示可学习的特征融合权重;
28、所述多头自注意力层用于通过多个注意力头捕获所述跨模态综合特征组的不同依赖关系,以确定相应的多头注意力特征,公式如下:
29、
30、fattention=concat(attention1,...,attentiond,...,attentionh)·wo
31、其中,q表示查询向量,k表示键向量,v表示值向量;wq、wk和wv分别表示用于将输入特征映射到查询空间、键空间和值空间的权重矩阵,kt表示键向量的转置,softmax表示softmax函数,表示缩放因子,attention(q,k,v)表示基于q、k和v计算而得到的单头注意力特征,fattention表示多头注意力特征,concat表示特征拼接函数,h表示注意力头的数量,attentiond表示第d个注意力头的输出特征表示,wo表示用于将拼接后的特征映射回原始特征维度的权重矩阵;
32、所述输出层用于通过多层感知器处理所述多头注意力特征,以确定目标电力文档特征表示:
33、foutput=mlp(fattention)
34、其中,foutput表示目标电力文档特征表示,mlp表示多层感知器处理函数。
35、进一步,所述文档特征生成对抗式网络的训练,包括:
36、在每个训练周期开始时,首先单独训练跨模态特征转换模块,使用预设的跨模态转换损失函数lcmc,通过反向传播和优化器更新跨模态转换模块的参数:
37、本文档来自技高网...
【技术保护点】
1.一种电力行业文档的分类方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的电力行业文档的分类方法,其特征在于:所述语义特征提取模型包含片段截取模块、BERT模型模块和特征聚合模块;
3.根据权利要求1所述的电力行业文档的分类方法,其特征在于:所述结构特征提取模型包含主题模型模块、结构树构建模块和Tree-LSTM模块;
4.根据权利要求1所述的电力行业文档的分类方法,其特征在于:所述元数据编码器为类型感知编码器,用于识别所述属性元数据信息中各个元数据参数的数据类型,并根据所识别的数据类型对相应的元数据参数进行编码以得到相应的编码特征,通过拼接各个所述编码特征以得到相应的元数据编码特征。
5.根据权利要求1所述的电力行业文档的分类方法,其特征在于:所述文档特征生成对抗式网络的生成器包含输入层、跨模态特征转换模块、特征融合层、多头自注意力层和输出层;
6.根据权利要求5所述的电力行业文档的分类方法,其特征在于:所述文档特征生成对抗式网络的训练,包括:
7.根据权利要求1所述的电力行业文档的分类方法,其特
8.一种电力行业文档的分类系统,其特征在于:包括:
9.一种电子设备,其特征在于:包括:
10.一种可读存储介质,其特征在于:所述可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时实现权利要求1-7中任一项所述的电力行业文档的分类方法。
...【技术特征摘要】
1.一种电力行业文档的分类方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的电力行业文档的分类方法,其特征在于:所述语义特征提取模型包含片段截取模块、bert模型模块和特征聚合模块;
3.根据权利要求1所述的电力行业文档的分类方法,其特征在于:所述结构特征提取模型包含主题模型模块、结构树构建模块和tree-lstm模块;
4.根据权利要求1所述的电力行业文档的分类方法,其特征在于:所述元数据编码器为类型感知编码器,用于识别所述属性元数据信息中各个元数据参数的数据类型,并根据所识别的数据类型对相应的元数据参数进行编码以得到相应的编码特征,通过拼接各个所述编码特征以得到相应的元数据编码特征。
5.根据权利要求1所述的电力行业文档的分...
【专利技术属性】
技术研发人员:王吉哲,沈正华,王健,伍冲翀,郑元兵,吴林霞,易力,龚黎慧倩,钟淘淘,武震秋,戴雨辰,周俊希,
申请(专利权)人:国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。