System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术实施例涉及文本分类,尤其涉及一种文本分类方法及装置、计算机可读存储介质、终端。
技术介绍
1、文本分类任务是文本处理技术中较为常见的任务类型之一,其广泛应用于各大领域,例如,实体识别、垃圾信息过滤、新闻分类、词性标注等等。
2、现有相关技术中,在实现文本分类时,通常先对大量样本文本进行标注,获得样本文本数据及其对应的文本类别标签,以构建训练数据集;然后将训练数据集输入待训练模型进行训练,得到预训练的文本分类模型;再将待分类文本输入预训练的文本分类模型,实现文本的自动分类。
3、然而,由于模型自身的局限性或模型训练方法等方面的不足,导致现有技术将预训练模型应用于文本分类过程时,获得的文本分类结果的准确度有待提高。
技术实现思路
1、本专利技术实施例解决的技术问题是如何提高文本分类结果的准确度。
2、为解决上述技术问题,本专利技术实施例提供一种文本分类方法,包括以下步骤:文本分类方法,其特征在于,包括:确定预训练文本分类模型;将待分类文本输入所述预训练文本分类模型,得到文本分类结果;至少基于第一类别标签集,对所述文本分类结果进行纠正;其中,所述第一类别标签集为所述预训练文本分类模型的训练数据集的类别标签的集合。
3、可选的,所述至少基于第一类别标签集,对所述文本分类结果进行纠正,包括:分别确定所述文本分类结果与所述第一类别标签集中的每个类别标签的最大数量的连续相同的字符数量,记为相同字符数量;如果最大的相同字符数量大于等于第一预
4、可选的,所述方法还包括:如果所述最大的相同字符数量小于所述第一预设数量,则基于所述文本分类结果的语义特征与第二类别标签集中的每个类别标签的语义特征之间的相似度,对所述文本分类结果进行纠正;其中,所述第二类别标签集包括所述第一类别标签集及其对应的扩展类别标签集,所述第一类别标签集中的每个类别标签被扩展为所述扩展类别标签集中的一个或多个类别标签。
5、可选的,所述第一预设数量是根据所述文本分类结果包含的字符总数量确定的,所述字符总数量越大,所述第一预设数量越大。
6、可选的,所述至少基于第一类别标签集,对所述文本分类结果进行纠正,包括:分别对所述文本分类结果以及所述第一类别标签集中的每个类别标签进行分词处理,得到所述文本分类结果的第一分词结果,以及每个类别标签各自的第二分词结果;对每个第二分词结果,确定所述第二分词结果与所述第一分词结果的相同分词数量;确定所述相同分词数量与所述第一分词结果中的分词总数量的比值,作为精准率,以及确定所述相同分词数量与所述第二分词结果中的分词总数量的比值,作为召回率;根据所述精准率和所述召回率,分别确定各个所述第二分词结果所属的类别标签的f1分数;如果各个类别标签中最大的f1分数大于等于预设分数,则将所述最大的f1分数所属的类别标签,作为纠正后的文本分类结果。
7、可选的,所述方法还包括:如果所述最大的f1分数小于所述预设分数,则基于所述文本分类结果的语义特征与第二类别标签集中的每个类别标签的语义特征之间的相似度,对所述文本分类结果进行纠正;其中,所述第二类别标签集包括所述第一类别标签集及其对应的扩展类别标签集,所述第一类别标签集中的每个类别标签被扩展为所述扩展类别标签集中的一个或多个类别标签。
8、可选的,所述第一类别标签集中的每个类别标签与其在所述扩展类别标签集中对应的类别标签的语义特征相似度大于等于预设的相似度阈值。
9、可选的,基于所述文本分类结果的语义特征与第二类别标签集中的每个类别标签的语义特征之间的相似度,对所述文本分类结果进行纠正,包括:确定所述文本分类结果的语义特征,记为第一语义特征,以及确定所述第二类别标签集中的每个类别标签的语义特征,记为第二语义特征;分别确定所述第一语义特征与每个第二语义特征之间的相似度;在所述第二类别标签集中,确定与所述第一语义特征之间的相似度最大的类别标签;根据所述相似度最大的类别标签,确定纠正后的文本分类结果。
10、可选的,所述根据所述相似度最大的类别标签,确定纠正后的文本分类结果,包括:如果所述相似度最大的类别标签属于所述第一类别标签集,则将所述相似度最大的类别标签作为纠正后的文本分类结果;如果所述相似度最大的类别标签属于所述扩展类别标签集,则将所述相似度最大的类别标签在所述第一类别标签集中对应的类别标签,作为纠正后的文本分类结果。
11、可选的,所述确定预训练文本分类模型,包括:确定初始化文本分类模型,所述初始化文本分类模型包括编码子模型、解码子模型以及文本分类子模型;确定训练数据集,所述训练数据集包括多条文本数据以及每条文本数据的类别标签;采用目标损失函数,对以下一项或多项待优化项进行迭代训练,以得到所述预训练文本分类模型:所述编码子模型、解码子模型以及文本分类子模型;其中,在每轮迭代中,将所述训练数据集中的文本数据输入所述编码子模型进行编码,然后将编码后的数据输入所述文本分类子模型进行文本分类处理,以及将所述编码后的数据和所述文本数据的类别标签输入所述解码子模型进行解码。
12、可选的,所述目标损失函数是对预设的第一文本分类损失函数和第二文本分类损失函数进行加权运算得到的;在迭代训练过程中,所述第一文本分类损失函数用于迭代优化所述编码子模型和所述文本分类子模型的参数,所述第二文本分类损失函数用于迭代优化所述编码子模型和所述解码子模型的参数。
13、可选的,所述目标损失函数是对所述第一文本分类损失函数和第二文本分类损失函数进行加权求和得到的。
14、可选的,每条所述文本数据是对原始文本和提示文本进行拼接得到的;所述提示文本用于指示所述训练数据集以及所述初始化文本分类模型的目标任务。
15、可选的,所述文本分类子模型选自以下任一项:由多层线性层、dropout层以及激活函数构成的网络结构;由多个自注意力机制模块构成的模型;由单层线性分类层构成的模型。
16、本专利技术实施例还提供一种文本分类装置,包括:模型确定模块,用于确定预训练文本分类模型;文本分类模块,用于将待分类文本输入所述预训练文本分类模型,得到文本分类结果;文本分类结果纠正模块,用于至少基于第一类别标签集,对所述文本分类结果进行纠正;其中,所述第一类别标签集为所述预训练文本分类模型的训练数据集的类别标签的集合。
17、本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述文本分类方法的步骤。
18、本专利技术实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述文本分类方法的步骤。
19、与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:
20、在实际应用中,采用包含类别标签的训练数据集对模型进行训练的过本文档来自技高网...
【技术保护点】
1.一种文本分类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述至少基于第一类别标签集,对所述文本分类结果进行纠正,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2或3所述的方法,其特征在于,所述第一预设数量是根据所述文本分类结果包含的字符总数量确定的,所述字符总数量越大,所述第一预设数量越大。
5.根据权利要求1所述的方法,其特征在于,所述至少基于第一类别标签集,对所述文本分类结果进行纠正,包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求3或6所述的方法,其特征在于,所述第一类别标签集中的每个类别标签与其在所述扩展类别标签集中对应的类别标签的语义特征相似度大于等于预设的相似度阈值。
8.根据权利要求3或6所述的方法,其特征在于,基于所述文本分类结果的语义特征与第二类别标签集中的每个类别标签的语义特征之间的相似度,对所述文本分类结果进行纠正,包括:
9.根据权利要求8所述的方法,其特征在于
10.根据权利要求1所述的方法,其特征在于,所述确定预训练文本分类模型,包括:
11.根据权利要求10所述的方法,其特征在于,所述目标损失函数是对预设的第一文本分类损失函数和第二文本分类损失函数进行加权运算得到的;
12.根据权利要求11所述的方法,其特征在于,所述目标损失函数是对所述第一文本分类损失函数和第二文本分类损失函数进行加权求和得到的。
13.根据权利要求10所述的方法,其特征在于,每条所述文本数据是对原始文本和提示文本进行拼接得到的;
14.根据权利要求10所述的方法,其特征在于,所述文本分类子模型选自以下任一项:
15.一种文本分类装置,其特征在于,包括:
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至14任一项所述文本分类方法的步骤。
17.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至14任一项所述文本分类方法的步骤。
...【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述至少基于第一类别标签集,对所述文本分类结果进行纠正,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2或3所述的方法,其特征在于,所述第一预设数量是根据所述文本分类结果包含的字符总数量确定的,所述字符总数量越大,所述第一预设数量越大。
5.根据权利要求1所述的方法,其特征在于,所述至少基于第一类别标签集,对所述文本分类结果进行纠正,包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求3或6所述的方法,其特征在于,所述第一类别标签集中的每个类别标签与其在所述扩展类别标签集中对应的类别标签的语义特征相似度大于等于预设的相似度阈值。
8.根据权利要求3或6所述的方法,其特征在于,基于所述文本分类结果的语义特征与第二类别标签集中的每个类别标签的语义特征之间的相似度,对所述文本分类结果进行纠正,包括:
9.根据权利要求8所述的方法,其特征在于,所述根据所述相似度最大的类别标签,确...
【专利技术属性】
技术研发人员:张晓芳,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。