表格标题分类模型的训练方法及表格标题的分类方法技术

技术编号:38510448 阅读:13 留言:0更新日期:2023-08-19 16:55
本申请公开了一种表格标题分类模型的训练方法、表格标题的分类方法、装置、设备及存储介质。其中,该表格标题分类模型的训练方法包括:获取表格标题样本和表格标题样本对应的样本分类标签;基于表格标题样本和样本分类标签生成局部输入矩阵和全局输入矩阵;将局部输入矩阵输入局部分类单元,获取第一特征向量;将全局输入矩阵输入全局分类单元,获取第二特征向量;将第一特征向量和第二特征项向量输入MLP进行特征映射,获取预测分类结果,并根据预测分类结果和样本分类标签对表格标题分类模型进行训练。通过本申请的技术方案,可以通过训练完成的表格标题分类模型,提高对表格标题进行分类的效率和准确率。进行分类的效率和准确率。进行分类的效率和准确率。

【技术实现步骤摘要】
表格标题分类模型的训练方法及表格标题的分类方法


[0001]本申请涉及数据处理
,尤其涉及一种表格标题分类模型的训练方法及表格标题的分类方法。

技术介绍

[0002]分项报价表是投标文件中最重要的文件之一。投标文件中的分项报价表标题分类方法多种多样,缺乏统一性和规范性,给评审人员的评估和比较带来一定的困难。为了便于评审人员对不同投标文件中的报价进行评估和比较,需要按照一定的分类方式对分项报价表进行标题分类。
[0003]相关技术中,对分项报价表标题进行分类大多采用人工分类的方式,效率低下,且错误率较高。

技术实现思路

[0004]本申请提供了一种表格标题分类模型的训练方法、表格标题的分类方法、装置、电子设备及存储介质。可以提高对表格标题进行分类的效率和准确率。
[0005]第一方面,本申请实施例提供一种表格标题分类模型的训练方法,所述表格标题分类模型包括局部分类单元、全局分类单元和多层感知器MLP,所述方法包括:获取表格标题样本和所述表格标题样本对应的样本分类标签;基于所述表格标题样本和所述样本分类标签生成局部输入矩阵和全局输入矩阵;将所述局部输入矩阵输入所述局部分类单元,获取第一特征向量;将所述全局输入矩阵输入所述全局分类单元,获取第二特征向量;将所述第一特征向量和所述第二特征项向量输入所述MLP进行特征映射,获取预测分类结果,并根据所述预测分类结果和所述样本分类标签对所述表格标题分类模型进行训练。
[0006]在该技术方案中,可以基于获取的表格标题样本和所述表格标题样本对应的样本分类标签生成局部输入矩阵和全局输入矩阵,并将上述局部输入矩阵和全局输入矩阵输入表格标题分类模型获取预测结果,从而根据预测结果和样本分类标签对表格分类模型进行训练,得到能够对表格标题进行准确分类的表格标题分类模型。从而提高对表格标题进行分类的效率和准确率。
[0007]在一种实现方式中,所述基于所述表格标题样本和所述样本分类标签生成局部输入矩阵和全局输入矩阵,包括:对所述表格标题样本进行词法分析,获取所述表格标题样本对应的表格标题样本序列;基于所述表格标题样本序列生成所述表格标题样本对应的样本词向量;基于所述样本词向量和所述样本分类标签生成所述局部输入矩阵和所述全局输入矩阵。
[0008]在一种可选地实现方式中,所述基于所述样本词向量和所述样本分类标签生成所述局部输入矩阵和所述全局输入矩阵,包括:将每个所述表格标题样本对应的样本词向量作为一个行向量,生成所述局部输入矩阵;根据所述样本分类标签对所述表格标题样本进行分类,获取不同类别的所述表格标题样本;将每个所述类别的所述表格标题样本对应的
样本词向量拼接为一个行向量,以生成所述全局输入矩阵。
[0009]在该技术方案中,可以对表格标题样本进行词法分析及向量化处理,生成相应的局部输入矩阵和全局输入矩阵,并将上述局部输入矩阵和全局输入矩阵输入表格标题分类模型获取预测结果,从而根据预测结果和样本分类标签对表格分类模型进行训练,得到能够对表格标题进行准确分类的表格标题分类模型。从而提高对表格标题进行分类的效率和准确率。
[0010]在一种实现方式中,所述根据所述预测分类结果和所述样本分类标签对所述表格标题分类模型进行训练,包括:基于所述预测分类结果和所述样本分类标签获取损失函数;根据所述损失函数计算梯度并进行反向传播,以利用梯度下降方式对所述表格标题分类模型的模型参数进行更新。
[0011]在该技术方案中,可以基于获取的表格标题样本和所述表格标题样本对应的样本分类标签生成局部输入矩阵和全局输入矩阵,并将上述局部输入矩阵和全局输入矩阵输入表格标题分类模型获取预测结果,以基于预测分类结果和样本分类标签获取损失函数,从而基于损失函数对表格标题分类模型进行训练,得到能够对表格标题进行准确分类的表格标题分类模型。从而提高对表格标题进行分类的效率和准确率。
[0012]在一种实现方式中,所述局部分类单元为循环神经网络RNN,和/或,所述全局分类单元为基于Transformer架构的多层神经网络,每层所述神经网络包括至少一个多头注意力层和至少一个全连接层。
[0013]第二方面,本申请实施例提供一种表格标题的分类方法,包括:获取待分类表格的表格标题文本;将所述表格标题文本输入表格标题分类模型,获取分类结果;其中,所述表格标题分类模型基于如第一方面所述的方法训练得到。
[0014]第三方面,本申请提供一种表格标题分类模型的训练装置,所述表格标题分类模型包括局部分类单元、全局分类单元和多层感知器MLP,所述装置包括:获取模块,用于获取表格标题样本和所述表格标题样本对应的样本分类标签;生成模块,用于基于所述表格标题样本和所述样本分类标签生成局部输入矩阵和全局输入矩阵;第一处理模块,用于将所述局部输入矩阵输入所述局部分类单元,获取第一特征向量;第二处理模块,用于将所述全局输入矩阵输入所述全局分类单元,获取第二特征向量;训练模块,用于将所述第一特征向量和所述第二特征项向量输入所述MLP进行特征映射,获取预测分类结果,并根据所述预测分类结果和所述样本分类标签对所述表格标题分类模型进行训练。
[0015]在一种实现方式中,所述生成模块具体用于:对所述表格标题样本进行词法分析,获取所述表格标题样本对应的表格标题样本序列;基于所述表格标题样本序列生成所述表格标题样本对应的样本词向量;基于所述样本词向量和所述样本分类标签生成所述局部输入矩阵和所述全局输入矩阵。
[0016]在一种可选地实现方式中,所述生成模块具体用于:将每个所述表格标题样本对应的样本词向量作为一个行向量,生成所述局部输入矩阵;根据所述样本分类标签对所述表格标题样本进行分类,获取不同类别的所述表格标题样本;将每个所述类别的所述表格标题样本对应的样本词向量拼接为一个行向量,以生成所述全局输入矩阵。
[0017]在一种实现方式中,所述训练模块具体用于:基于所述预测分类结果和所述样本分类标签获取损失函数;根据所述损失函数计算梯度并进行反向传播,以利用梯度下降方
式对所述表格标题分类模型的模型参数进行更新。
[0018]在一种实现方式中,所述局部分类单元为循环神经网络RNN,和/或,所述全局分类单元为基于Transformer架构的多层神经网络,每层所述神经网络包括至少一个多头注意力层和至少一个全连接层。
[0019]第四方面,本申请实施例提供一种表格标题的分类装置,包括:获取模块,用于获取待分类表格的表格标题文本;分类模块,用于将所述表格标题文本输入表格标题分类模型,获取分类结果;其中,所述表格标题分类模型基于如第一方面所述的方法训练得到。
[0020]第五方面,本申请实施例提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的表格标题分类模型的训练方法,或者,执行如第二方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格标题分类模型的训练方法,其特征在于,所述表格标题分类模型包括局部分类单元、全局分类单元和多层感知器MLP,所述方法包括:获取表格标题样本和所述表格标题样本对应的样本分类标签;基于所述表格标题样本和所述样本分类标签生成局部输入矩阵和全局输入矩阵;将所述局部输入矩阵输入所述局部分类单元,获取第一特征向量;将所述全局输入矩阵输入所述全局分类单元,获取第二特征向量;将所述第一特征向量和所述第二特征项向量输入所述MLP进行特征映射,获取预测分类结果,并根据所述预测分类结果和所述样本分类标签对所述表格标题分类模型进行训练。2.如权利要求1所述的方法,其特征在于,所述基于所述表格标题样本和所述样本分类标签生成局部输入矩阵和全局输入矩阵,包括:对所述表格标题样本进行词法分析,获取所述表格标题样本对应的表格标题样本序列;基于所述表格标题样本序列生成所述表格标题样本对应的样本词向量;基于所述样本词向量和所述样本分类标签生成所述局部输入矩阵和所述全局输入矩阵。3.如权利要求2所述的方法,其特征在于,所述基于所述样本词向量和所述样本分类标签生成所述局部输入矩阵和所述全局输入矩阵,包括:将每个所述表格标题样本对应的样本词向量作为一个行向量,生成所述局部输入矩阵;根据所述样本分类标签对所述表格标题样本进行分类,获取不同类别的所述表格标题样本;将每个所述类别的所述表格标题样本对应的样本词向量拼接为一个行向量,以生成所述全局输入矩阵。4.如权利要求1所述的方法,其特征在于,所述根据所述预测分类结果和所述样本分类标签对所述表格标题分类模型进行训练,包括:基于所述预测分类结果和所述样本分类标签获取损失函数;根据所述损失函数计算梯度并进行反向传播,以利用梯度下降方式对所述表格标题分类模型的模型参数进行更新。5.如权利要求1所述的方法,其特征在于,所述局部分类单元为循环神经网络RNN,和/或,所述全局分类单元为基于Transformer架构的多层神经...

【专利技术属性】
技术研发人员:袁建郭磊贾家琛郑子辰李小翔邸智
申请(专利权)人:中国华能集团清洁能源技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1