文本分类模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38755238 阅读:10 留言:0更新日期:2023-09-10 09:40
本发明专利技术涉及数字医疗领域及人工智能技术领域,应用了深度学习技术,涉及一种文本分类模型的训练方法、装置、电子设备及存储介质。该方法包括:接收分类模型训练指令;将训练文本输入编码器,生成文本特征向量;利用线性层得到预设数量的文本标签并计算出预测标签的概率分布;对文本标签的向量随机初始化,将得到的随机标签特征向量输入两个自注意力层和线性层,利用算法得到混淆标签分布,将混淆标签分布与真实标签分布结合得到模拟标签分布;根据损失函数计算模拟标签分布与预测标签的概率分布的损失值,根据损失值调整文本分类模型的参数,得到训练完成的文本分类模型。在医学领域中,本发明专利技术可以提高对医疗文本分类的准确性。性。性。

【技术实现步骤摘要】
文本分类模型的训练方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,应用了深度学习技术,涉及一种文本分类模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]目前在医学领域中,传统的医疗文本分类模型通常是使用深度网络(DNN,诸如LSTM、CNN、BERT等)来得到向量表示,使用线性层映射维度到标签数量,然后通过SoftMax算法输出预测的标签概率分布,再使用Cross

entropy来计算真实标签(one

hot表示)与p之间的损失,从而进行分类优化,但上述方法割裂了标签之间的关系,忽略了真实标签跟其他标签之间的关系,导致分类模型无法学习标签之间的信息,泛化能力查,在面对易混淆和有噪声的分类数据时,模型更加受影响,分类性能差。

技术实现思路

[0003]鉴于以上内容,有必要提供一种文本分类模型的训练方法,其主要目的在于学习真实标签与其他标签之间的关系。
[0004]为实现上述目的,本专利技术提供一种文本分类模型的训练方法,包括:
[0005]S1、接收分类模型训练指令,根据所述分类模型训练指令从数据库获取训练数据,所述训练数据包括训练文本和所述训练文本对应的真实标签分布;
[0006]S2、将所述训练文本输入所述编码器,提取所述训练文本的文本信息特征以生成文本特征向量,使用所述第一线性层对所述文本特征向量进行处理得到预设数量的文本标签和预测标签的概率分布;
[0007]S3、计算所述预设数量的文本标签的向量并进行随机初始化处理,得到多个随机标签特征向量,将得到的多个随机标签特征向量输入所述第一自注意力层,输出得到多个第一关联特征向量;
[0008]S4、将所述多个第一关联特征向量和所述文本特征向量输入所述第二自注意力层,输出得到第二标签特征向量;
[0009]S5、通过所述第二线性层对所述第二标签特征向量进行维度映射,得到映射后的标签特征向量,利用SoftMax算法对所述映射后的标签特征向量进行计算,得到混淆标签分布,将所述混淆标签分布与所述真实标签分布结合得到模拟标签分布;
[0010]S6、根据所述损失函数计算所述模拟标签分布与所述预测标签的概率分布的损失值,若所述损失值大于或等于预设的损失阈值,则更新所述文本分类模型的参数,返回步骤S2;若所述损失值小于所述预设的损失阈值,则得到训练完成的文本分类模型,将训练完成的文本分类模型返回所述分类模型训练指令的终端以供所述终端进行文本分类。
[0011]可选地,所述提取所述训练文本的文本信息特征以生成文本特征向量包括:
[0012]所述提取所述训练文本的文本信息特征以生成文本特征向量的公式为:
[0013]Hw=F(x)=F(x1,x2,...xn)
[0014]其中,Hw为文本特征向量,F(x)是编码器的分类函数,x1到xn是泛指该模型的多个文本输入信息。
[0015]可选地,使用第一线性层对文本特征向量进行处理包括:
[0016]使用第一线性层对文本特征向量进行维度映射得到预设数量的文本标签;
[0017]通过SoftMax算法对所述预设数量的文本标签进行计算得到预测标签的概率分布,其中,所述预测标签用于表示所述训练文本的类别。
[0018]可选地,所述通过SoftMax算法对所述预设数量的文本标签进行计算得到预测标签的概率分布的公式为:
[0019]Yp=softmax(H)
[0020]其中,Yp是预测标签的概率分布,softmax是用于计算标签概率分布的softmax函数,H是预设数量的文本标签。
[0021]可选地,将所述多个第一关联特征向量和所述文本特征向量输入所述第二自注意力层,输出得到第二标签特征向量,其公式为:
[0022]Hc2=Attention(Hc1)
[0023]其中,Hc2是第二标签特征向量,Attention是用于计算标签特征向量的第二自注意力层函数,Hc1是第一关联特征向量。
[0024]可选地,所述混淆标签分布与真实标签分布结合得到模拟标签分布包括:
[0025]将所述混淆标签分布的数值与真实标签分布的数值进行加法计算,并且对计算得到的数值进行归一化得到模拟标签分布。
[0026]可选地,所述损失函数为KL散度算法,该损失函数的输入为预测标签的概率分布和混淆标签分布与真实标签分布的加值,输出为损失值。
[0027]此外,为实现上述目的,本专利技术还提供一种文本分类模型训练装置,所述装置包括:
[0028]数据接收模块,用于接收分类模型训练指令,根据所述分类模型训练指令从数据库获取训练数据;
[0029]文本特征提取模块,用于将所述训练文本输入所述编码器,提取所述训练文本的文本信息特征以生成文本特征向量,使用所述第一线性层对所述文本特征向量进行处理得到预设数量的文本标签和预测标签的概率分布;
[0030]第一自注意力层模块,用于计算所述预设数量的文本标签的向量并进行随机初始化处理,将得到的多个随机标签特征向量输入所述第一自注意力层,输出得到多个第一关联特征向量;
[0031]第二自注意力层模块,用于将所述多个第一关联特征向量和所述文本特征向量输入所述第二自注意力层,输出得到第二标签特征向量;
[0032]模拟标签分布模块,用于通过所述第二线性层对所述第二标签特征向量进行维度映射,得到映射后的标签特征向量,再用SoftMax算法对所述映射后的标签特征向量进行计算,得到混淆标签分布,将所述混淆标签分布与所述真实标签分布结合得到模拟标签分布;
[0033]损失值计算模块,用于根据所述损失函数计算所述模拟标签分布与所述预测标签的概率分布的损失值,若所述损失值大于或等于预设的损失阈值,则更新所述文本分类模型的参数,返回步骤S2;若所述损失值小于所述预设的损失阈值,则得到训练完成的文本分
类模型,将训练完成的文本分类模型返回所述分类模型训练指令的终端以供所述终端进行文本分类。
[0034]此外,为实现上述目的,本专利技术还提供一种电子设备,所述电子设备包括:
[0035]存储器,存储至少一个计算机程序;及
[0036]处理器,执行所述存储器中存储的程序以实现上述所述的文本分类模型的训练方法。
[0037]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的文本分类模型的训练方法。
[0038]本专利技术实施例通过编码器提取训练文本的文本特征向量,然后使用第一线性层对文本特征向量进行维度映射得到预设数量的文本标签,并得到预测标签的概率分布;在对预设数量的文本标签的向量随机初始化处理,得到多个随机标签特征向量,再将这个多个随机标签特征向量跟输入的文本向量通过相似度来逐渐构造出标签分布,由于这样的标签分布可以反本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,所述文本分类模型包括编码器、第一线性层、第二线性层、第一自注意力层、第二自注意力层和损失函数,其特征在于,所述方法包括:S1、接收分类模型训练指令,根据所述分类模型训练指令从数据库获取训练数据,所述训练数据包括训练文本和所述训练文本对应的真实标签分布;S2、将所述训练文本输入所述编码器,提取所述训练文本的文本信息特征以生成文本特征向量,使用所述第一线性层对所述文本特征向量进行处理得到预设数量的文本标签和预测标签的概率分布;S3、计算所述预设数量的文本标签的向量并进行随机初始化处理,得到多个随机标签特征向量,将得到的多个随机标签特征向量输入所述第一自注意力层,输出得到多个第一关联特征向量;S4、将所述多个第一关联特征向量和所述文本特征向量输入所述第二自注意力层,输出得到第二标签特征向量;S5、通过所述第二线性层对所述第二标签特征向量进行维度映射,得到映射后的标签特征向量,利用SoftMax算法对所述映射后的标签特征向量进行计算,得到混淆标签分布,将所述混淆标签分布与所述真实标签分布结合得到模拟标签分布;S6、根据所述损失函数计算所述模拟标签分布与所述预测标签的概率分布的损失值,若所述损失值大于或等于预设的损失阈值,则更新所述文本分类模型的参数,返回步骤S2;若所述损失值小于所述预设的损失阈值,则得到训练完成的文本分类模型,将训练完成的文本分类模型返回所述分类模型训练指令的终端以供所述终端进行文本分类。2.如权利要求1所述的文本分类模型的训练方法,其特征在于,将所述提取所述训练文本的文本信息特征以生成文本特征向量,包括:所述提取所述训练文本的文本信息特征以生成文本特征向量的公式为:Hw=F(x)=F(x1,x2,...xn)其中,Hw为文本特征向量,F(x)是编码器的分类函数,x1到xn是泛指该模型的多个文本输入信息。3.如权利要求1所述的文本分类模型的训练方法,其特征在于,使用所述第一线性层对所述文本特征向量进行处理,包括:使用所述第一线性层对所述文本特征向量进行维度映射得到预设数量的文本标签;通过SoftMax算法对所述预设数量的文本标签进行计算得到预测标签的概率分布,其中,所述预测标签用于表示所述训练文本的类别。4.如权利要求3所述的文本分类模型的训练方法,其特征在于,所述通过SoftMax算法对所述预设数量的文本标签进行计算得到预测标签的概率分布的公式为:Yp=softmax(H)其中,Yp是预测标签的概率分布,softmax是用于计算标签概率分布的softmax函数,H是预设数量的文本标签。5.如权利要求1所述的文本分类模型的训练方法,其特征在于,将所述多个第一关联特征向量和...

【专利技术属性】
技术研发人员:刘羲周涵舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1