一种给定关键词的文本分类方法、装置、电子设备及介质制造方法及图纸

技术编号：37782958 阅读：16 留言：0更新日期：2023-06-09 09:13

本发明专利技术涉及一种给定关键词的文本分类方法、装置、电子设备及介质，该方法包括：获取包含给定关键词的待分类文本；将所述待分类文本输入至预训练的文本分类模型，得到所述待分类文本的分类结果，其中，文本分类模型是基于包含给定关键词的文本得到的训练数据训练得到，且模型训练过程中的总损失值不但考虑到了该文本的训练结果和分类标签之间的损失值，还考虑到了该文本与相同分类结果对应的采样文本之间的损失值，使得训练得到的文本分类模型的精度更高，这样在基于本申请方案训练得到的文本分类模型进行分类时，可提高分类准确性，减少误杀。少误杀。少误杀。

全部详细技术资料下载

【技术实现步骤摘要】
一种给定关键词的文本分类方法、装置、电子设备及介质

[0001]本专利技术涉及人工智能、自然语言处理、文本分类、深度学习
，具体而言，本专利技术涉及一种给定关键词的文本分类方法、装置、电子设备及介质。

技术介绍

[0002]语句分类是自然语言处理中的一个经典问题，而该问题的解决效果往往与数据质量有着密不可分的关系。而对于该问题，往往会出现一个不容忽视的现象，即部分关键词在特定场景下存在着特殊含义，但这部分特定场景对应的语句往往不具备特殊性。比如“伞兵”一次在特定情况下具有骂人的含义，然而单独的“你是伞兵么”一句话，人们难以分别其真实含义。而对于深度学习模型来说，这种样本往往会导致模型碰到包含这种关键词的语句便会认为是黑标签，从而导致误杀。
[0003]因此，现有技术中的文本分类模型不能够对包含给定关键词的文本进行准确的分类，容易出现误杀的现象。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供了一种给定关键词的文本分类方法、装置、电子设备及介质，旨在解决上述至少一个技术问题。
[0005]第一方面，本专利技术解决上述技术问题的技术方案如下：一种给定关键词的文本分类方法，该方法包括：
[0006]获取包含给定关键词的待分类文本；
[0007]将所述待分类文本输入至预训练的文本分类模型，得到所述待分类文本的分类结果，其中，所述文本分类模型是通过以下方式训练得到的：
[0008]获取包含多个给定关键词的关键词集合和包含多个文本的训练集合，对于所述训练...

【技术保护点】

【技术特征摘要】
1.一种给定关键词的文本分类方法，其特征在于，包括以下步骤：获取包含给定关键词的待分类文本；将所述待分类文本输入至预训练的文本分类模型，得到所述待分类文本的分类结果，其中，所述文本分类模型是通过以下方式训练得到的：获取包含多个给定关键词的关键词集合和包含多个文本的训练集合，对于所述训练集合中的每个文本，每个所述文本对应一个分类标签；对于所述训练集合中的每个文本，根据所述文本对初始模型进行训练，得到所述文本对应的分类结果；根据所述训练集合中每个所述文本的分类结果和分类标签，确定第一分类损失值；将所述训练集合中包含所述关键词集合中的给定关键词的文本作为训练样本，对于所述训练集合中的每个文本，根据所述文本的分类标签，确定所述文本是否属于所述训练样本；若所述文本属于所述训练样本，则从所述训练样本中选取一个文本作为所述文本对应的采样文本，并根据所述文本、所述文本的分类标签、所述文本对应的采样文本和所述采样文本的分类标签，确定所述文本对应的损失值，所述采样文本的分类标签与所述文本的分类标签均属于相同的分类结果；根据所述第一分类损失值和所述训练集合中属于所述训练样本的每个所述文本对应的损失值，确定所述初始模型的总损失值；若所述训练集合中的每个文本均不属于所述训练样本，将所述第一分类损失值作为所述总损失值；若所述总损失值满足预设的训练结束条件，则将满足所述训练结束条件的初始模型作为所述文本分类模型，若所述总损失值不满足所述训练结束条件，则调整所述初始模型的模型参数，并根据调整后的模型参数重新训练所述初始模型，直到所述总损失值满足所述训练结束条件。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述训练样本划分为白样本和黑样本，所述白样本中的每个文本对应的分类结果不属于设定分类结果，所述黑样本中的每个文本对应的分类结果属于所述设定分类结果；对于所述训练集合中的每个文本，所述从所述训练样本中选取一个文本作为所述文本对应的采样文本，包括：根据所述文本的分类标签，确定所述文本是否属于所述白样本；若所述文本属于所述白样本，则从所述白样本中选取一个文本作为所述文本对应的采样文本；若所述文本属于所述黑样本，则从所述黑样本中选取一个文本作为所述文本对应的采样文本。3.根据权利要求1所述的方法，其特征在于，对于所述训练集合中的每个文本，所述根据所述文本、所述文本的分类标签、所述文本对应的采样文本和所述采样文本的分类标签，确定所述文本对应的损失值，包括：根据所述文本和所述文本对应的采样本文，确定混合文本向量；根据所述文本的分类标签和所述采样文本的分类标签，确定混合标签向量；
对所述混合文本向量和所述混合标签向量进行交叉熵计算，得到所述文本对应的损失值。4.根据权利要求3所述的方法，其特征在于，所述根据所述文本...

【专利技术属性】
技术研发人员：孙宇健，
申请(专利权)人：数美天下北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人