融合元数据和标签相关性的政策文件分类方法及系统技术方案

技术编号:39723638 阅读:24 留言:0更新日期:2023-12-17 23:29
本发明专利技术公开了融合元数据和标签相关性的政策文件分类方法及系统;其中方法,包括:获取待分类的政策文件;对待分类的政策文件进行预处理;基于待分类政策文件的正文和元数据,构建正文

【技术实现步骤摘要】
融合元数据和标签相关性的政策文件分类方法及系统


[0001]本专利技术涉及文件分类
,特别是涉及融合元数据和标签相关性的政策文件分类方法及系统


技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术

[0003]政策文件,包括:法律

法规

部门规章等官方文件,政策文件分布杂乱给公众获取和查找相关政策信息带来了不便,分类体系不统一导致政策文件的归类和检索存在困难

[0004]政策涵盖的内容存在信息多样

异构

描述表达不一致等问题,这无疑增加了文本分析的难度

以往的政策文件分类方式依赖传统的手动标注或者使用通用的深度学习分类方法,导致政策文件的利用率和分类精度低下,准确率往往只有
70
%左右


技术实现思路

[0005]为了解决现有技术的不足,本专利技术提供了融合元数据和标签相关性的政策文件分类方法及系统;通过分析政策文件特性,构建了正文

元数据和标签相关性的双超图表示,并使用超图神经网络获取超图结构数据相关性的复杂和高阶结构信息

同时使用
BERT
获取对应政策文件标题的语义信息

最后将以上两方面融合为更高级别的语义信息对政策文件进行分类标注,以解决现有方法资源利用率和分类效率低下的问题

>[0006]一方面,提供了融合元数据和标签相关性的政策文件分类方法;
[0007]融合元数据和标签相关性的政策文件分类方法,包括:
[0008]获取待分类的政策文件;对待分类的政策文件进行预处理;
[0009]基于待分类政策文件的正文和元数据,构建正文

元数据超图;基于待分类政策文件的标签,构建标签相关性超图;
[0010]对待分类政策文件的标题,采用训练后的标题分类模型进行分类,得到第一分类结果;将正文

元数据超图,输入到训练后的第一超图神经网络,输出第一超图特征表示;将标签相关性超图,输入到训练后的第二超图神经网络,输出第二超图特征表示;将第一超图特征表示与第二超图特征表示进行特征融合,得到第二分类结果;
[0011]将第一分类结果与第二分类结果进行加权求和,得到待分类政策文件的最终分类结果

[0012]另一方面,提供了融合元数据和标签相关性的政策文件分类系统;
[0013]融合元数据和标签相关性的政策文件分类系统,包括:
[0014]获取模块,其被配置为:获取待分类的政策文件;对待分类的政策文件进行预处理;
[0015]构建模块,其被配置为:基于待分类政策文件的正文和元数据,构建正文

元数据超图;基于待分类政策文件的标签,构建标签相关性超图;
[0016]分类模块,其被配置为:对待分类政策文件的标题,采用训练后的标题分类模型进
行分类,得到第一分类结果;将正文

元数据超图,输入到训练后的第一超图神经网络,输出第一超图特征表示;将标签相关性超图,输入到训练后的第二超图神经网络,输出第二超图特征表示;将第一超图特征表示与第二超图特征表示进行特征融合,得到第二分类结果;
[0017]输出模块,其被配置为:将第一分类结果与第二分类结果进行加权求和,得到待分类政策文件的最终分类结果

[0018]再一方面,还提供了一种电子设备,包括:
[0019]存储器,用于非暂时性存储计算机可读指令;以及
[0020]处理器,用于运行所述计算机可读指令,
[0021]其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法

[0022]再一方面,还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令

[0023]再一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法

[0024]上述技术方案中的一个技术方案具有如下优点或有益效果:
[0025]1.
分析政策文件特性,将政策文件分为多个字段以提高数据资源的利用率,提高政策文件分类准确率

[0026]2.
将政策文件标题和正文分开编码,结合政策文件的标题语义特征和政策文件的正文高阶数据相关性进行政策文件分类

[0027]3.
构建正文

元数据和标签相关性双超图表示,通过超边连接多个节点的方式制定复杂的高阶数据关联,降低图结构复杂性并增强可解释性

[0028]4.
整合
BERT
输出的政策文件标题语义信息和超图神经网络输出的双超图结构信息,通过动态权重调整二者输出的分类特征,使得每个政策文件的分类语义更加清晰

附图说明
[0029]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定

[0030]图1为实施例一的方法流程图;
[0031]图2为实施例一的网络结构示意图

具体实施方式
[0032]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明

除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义

[0033]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式

如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程

方法

系统

产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程

方法

产品或设备固有的其它步骤或单元

[0034]实施例一
[0035]本实施例提供了融合元数据和标签相关性的政策文件分类方法;
[0036]如图1和图2所示,融合元数据和标签相关性的政策文件分类方法,包括:
[0037]S101
:获取待分类的政策文件;对待分类的政策文件进行预处理;
[0038]S102
:基于待分类政策文件的正文和元数据,构建正文

元数据超图;基于待分类政策文件的标本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
融合元数据和标签相关性的政策文件分类方法,其特征是,包括:获取待分类的政策文件;对待分类的政策文件进行预处理;基于待分类政策文件的正文和元数据,构建正文

元数据超图;基于待分类政策文件的标签,构建标签相关性超图;对待分类政策文件的标题,采用训练后的标题分类模型进行分类,得到第一分类结果;将正文

元数据超图,输入到训练后的第一超图神经网络,输出第一超图特征表示;将标签相关性超图,输入到训练后的第二超图神经网络,输出第二超图特征表示;将第一超图特征表示与第二超图特征表示进行特征融合,得到第二分类结果;将第一分类结果与第二分类结果进行加权求和,得到待分类政策文件的最终分类结果
。2.
如权利要求1所述的融合元数据和标签相关性的政策文件分类方法,其特征是,基于待分类政策文件的正文和元数据,构建正文

元数据超图,具体包括:将政策正文的词汇表中的每一个单词视为超图中的节点,将每个句子视为一条边,将句子中所有单词节点按顺序连接起来,构建顺序超边;将元数据插入词汇表尾部,将每个类型的元数据视为一条边,将当前类型元数据的所有单词连接起来,构建元数据超边,得到正文

元数据超图;所述正文

元数据超图,表示为
G
wm

(A
wm
,H
wm
)
;其中
A
tm
∈R
n
×
s
为正文

元数据超图的关联矩阵,定义为:
H
wm

[h
wm,1
,h
wm,2
,...,h
wm,n
]
T
∈R
n
×
d
为正文

元数据超图的特征矩阵,并使用
Glove
词嵌入初始化每个节点特征,
n
为一个政策文件添加了对应元数据后的词汇表大小,
s
为正文中句子的数量加元数据类型的数量,
d
为每个节点的特征向量维数,
v
i
表示超图中第
i
个节点,
e
j
表示超图中第
j
条超边
。3.
如权利要求1所述的融合元数据和标签相关性的政策文件分类方法,其特征是,基于待分类政策文件的标签,构建标签相关性超图,具体包括:将政策文件中的每一个标签视为节点,将同时出现在不同政策文件中的多个标签节点进行边连接,得到标签相关性超图;标签相关性超图表示为
G
l

(A
l
,H
l
)
,其中
A
l
∈R
c
×
k
,为标签相关性超图的关联矩阵,
H
l

[h
l,1
,h
l,2
,...,h
l,c
]
T
∈R
c
×
c
为标签相关性超图的特征矩阵,并使用
one

hot
初始化每个节点特征,
c
为政策文件中标签数量,将多个同时出现的标签定义为标签组,
k
为政策文件中标签组的数量
。4.
如权利要求1所述的融合元数据和标签相关性的政策文件分类方法,其特征是,训练后的标题分类模型

训练后的第一超图神经网络

训练后的第二超图神经网络,训练过程包括:构建训练集,所述训练集为已知分类标签的政策文件;
构建政策文件分类模型,所述政策文件分类模型包括三个并列的分支:第一分支

第二分支和第三分支,第一分支为标题分类模型,标题分类模型,网络结构包括:依次连接的
BERT
模型和线性分类器;线性分类器,例如支持向量机;所述
BERT
模型用于输入政策标题;所述线性分类器输出第一分类结果;第二分支为相互连接的第一超图神经网络和池化层,所述第一超图神经网络用于输入正文

元数据超图;所述池化层,用于输出第一超图特征表示;第三分支为第二超图神经网络,所述第二超图神经网络用于输入标签相关性超图,所述第二超图神经网络输出第二超图特征表示;池化层的输出端和第二超图神经网络的输出端,均与特征融合模块的输入端连接,特征融合模块对第一超图特征和第二超图特征进行融合,得到第二分类结果;线性分类器的输出端和特征融合模块的输出端,均与加权求和模块的输入端连接,加权求和模块的输出端输出最终的分类结果;将训练集输入到政策文件分类模型中,对模型进行训练,当模型的总损失函数值不再下降时,停止训练得到训练后的政策文件分类模型,也就是得到了训练后的标题分类模型

训练后的第一超图神经网络和训练后的第二超图神经网络
。5.
如权利要求4所述的融合元数据和标签相关性的政策文件分类方法,其特征是,模型的总损失函数,使用二元交叉熵损失,当损失不再下降时,停止训练,得到训练后的模型,二元交叉熵损失公式如下:其中,
σ

sigmoid
激活函数
。6.
如权利要求1所述的融合元数据和标签相关性的政策文件分类方法,其特征是,将正文

元数据超图,输入到训练后的第一超图神经网络,输出第一超图特征表示,将标签相关性超图,输入到训练后的第二超图神经网络,输出第二超图特征表示,具体包括:将正文

元数据超图关联矩阵
A
wm
及其特征矩阵
H
wm
和多标签相关性超图关联矩阵
A
...

【专利技术属性】
技术研发人员:刘祥志薛许强吴晓明李胜男
申请(专利权)人:齐鲁工业大学山东省科学院山东山科智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1