System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种文本分类方法及装置。
技术介绍
1、随着人工智能(artificial intelligence,ai)技术的飞速发展,深度学习(deeplearning,dl)被广泛应用在图像、视频、文本等领域。
2、文本分类(text categorization,tc)是一种基于深度学习技术的将载有信息的文本映射到预设的某一个文本类别或某几个文本类别的技术,通过文本分类可以快速的将大量的文本信息进行分类,节约人力资源。随着文本分类技术应用的范围越来越广泛,人们对文本分类技术的准确度的要求越来越高。
3、现有技术中的文本分类方案,通常是直接采用bert(bidirectional encoderrepresentations from transformers)等训练模型对文本信息进行分类。该方法在进行深度学习时,需要大量的高质量训练数据。因此,当训练数据量较少时,则无法保证文本分类的准确性。
技术实现思路
1、本申请实施例提供一种文本分类方法及装置,用以提高文本分类的准确性。
2、第一方面,本申请实施例提供了一种文本分类方法。该方法包括:第一设备获取目标文本信息。根据预设的文本编码器对目标文本信息进行编码,获得第一向量,第一向量对应于目标文本信息。根据第一向量从向量检索库中确定目标向量,目标向量为向量检索库中与第一向量的相似度最大的向量,且目标向量与第一向量的相似度大于预设的第一阈值,目标向量是根据多个相似向量生成的,相似向
3、采用该方法,第一设备可以根据相同文本类别的相似向量生成该文本类别对应的一个或多个目标向量,增加用于训练模型的数据,从而提高文本分类的准确性。同时,由于目标向量是根据多个相似向量生成的,将目标向量对应的文本类别作为目标文本信息对应的文本类别,可以进一步的提高文本分类的准确性。
4、在一种可能的设计中,预设的文本编码器是根据多个训练数据训练获得的,训练数据中的每个训练数据是通过联邦学习服务器进行联合学习获得的,联邦学习服务器用于将多个设备的数据进行联合学习。
5、基于该设计,通过联邦学习服务器的方式进行联合学习,可以在不泄露敏感数据的前提下进行学习,从而增加训练模型的数据量,提高文本编码器的性能
6、在一种可能的设计中,第一设备根据目标向量对应的第一文本类别,从文本信息库中确定m个文本信息,文本信息库包括多个文本信息以及文本信息对应的文本类别,m个文本信息对应文本类别为第一文本类别,m为大于1的整数。根据预设的文本编码器对m个文本信息进行编码,获得m个文本信息的向量。
7、对m个文本信息的向量中的每一个向量,执行如下处理:
8、根据向量从向量检索库中确定n个相似向量,n个相似向量中任意一个向量与向量的相似度均大于预设的第二阈值,n为大于1的整数。根据m*n个相似向量生成目标向量。
9、基于该设计,第一设备可以根据相同文本类别的相似向量生成该文本类别对应的一个或多个目标向量,增加用于训练模型的数据,从而提高文本分类的准确性。同时,由于目标向量是根据多个相似向量生成的,将目标向量对应的文本类别作为目标文本信息对应的文本类别,可以进一步的提高文本分类的准确性。
10、在一种可能的设计中,目标向量满足:
11、
12、其中,相似向量i为m*n个相似向量中的第i个向量。
13、在一种可能的设计中,若向量检索库中的向量与第一向量的相似度的最大值小于第一阈值,则根据目标文本信息生成目标文本信息对应的文本类型。将第一向量和目标文本信息对应的文本类型存储到向量检索库中。
14、基于该设计,当训练模型对文本进行分类的结果出现错误时,可以快速的对分类结果进行更正,并将还文本信息对应的新的文本类别存储至向量检索库中,对向量检索库进行更新,优化训练模型的性能,提高文本分类的准确性。
15、第二方面,本申请实施例提供了一种文本分类装置。该装置包括:通信模块,用于获取目标文本信息。处理模块,用于根据预设的文本编码器对目标文本信息进行编码,获得第一向量,第一向量对应于目标文本信息。处理模块,还用于根据第一向量从向量检索库中确定目标向量,目标向量为向量检索库中与第一向量的相似度最大的向量,且目标向量与第一向量的相似度大于预设的第一阈值,目标向量是根据多个相似向量生成的,相似向量对应的文本类别与目标向量对应的文本类别相同。处理模块,还用于将目标向量对应的文本类别作为目标文本信息的文本类别。
16、在一种可能的设计中,预设的文本编码器是根据多个训练数据训练获得的,训练数据中的每个训练数据是通过联邦学习服务器进行联合学习获得的,联邦学习服务器用于将多个设备的数据进行联合学习。
17、在一种可能的设计中,处理模块具体用于,根据目标向量对应的第一文本类别,从文本信息库中确定m个文本信息,文本信息库包括多个文本信息以及文本信息对应的文本类别,m个文本信息对应文本类别为第一文本类别,m为大于1的整数。根据预设的文本编码器对m个文本信息进行编码,获得m个文本信息的向量。
18、对m个文本信息的向量中的每一个向量,执行如下处理:
19、根据向量从向量检索库中确定n个相似向量,n个相似向量中任意一个向量与向量的相似度均大于预设的第二阈值,n为大于1的整数。根据m*n个相似向量生成目标向量。
20、在一种可能的设计中,目标向量满足:
21、
22、其中,相似向量i为m*n个相似向量中的第i个向量。
23、在一种可能的设计中,处理模块具体用于:若向量检索库中的向量与第一向量的相似度的最大值小于第一阈值,则根据目标文本信息生成目标文本信息对应的文本类型。将第一向量和目标文本信息对应的文本类型存储到向量检索库中。
24、第三方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现如上述第一方面及其任一可能的设计的方法。
25、第四方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机程序,当计算机程序被处理器执行时,使得处理器实现如上述第一方面及其任一可能的设计的方法。
26、第二方面至第四方面及其任意一种设计所带来的技术效果可参见第一方面中对应的设计所带来的技术效果,此处不再赘述。
本文档来自技高网...【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述预设的文本编码器是根据多个训练数据训练获得的,所述训练数据中的每个训练数据是通过联邦学习服务器进行联合学习获得的,所述联邦学习服务器用于将多个设备的数据进行联合学习。
3.如权利要求1所述的方法,其特征在于,所述第一设备根据多个所述相似向量生成所述目标向量,包括:
4.如权利要求3所述的方法,其特征在于,所述目标向量满足:
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
6.一种文本分类装置,其特征在于,所述装置包括:
7.如权利要求6所述的装置,其特征在于,所述预设的文本编码器是根据多个训练数据训练获得的,所述训练数据中的每个训练数据是通过联邦学习服务器进行联合学习获得的,所述联邦学习服务器用于将多个设备的数据进行联合学习。
8.如权利要求6所述的装置,其特征在于,所述处理模块具体用于:
9.如权利要求8所述的装置,其特征在于,所述目标向量满足:
10.如权利要求6所述
11.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5中任一所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述方法的步骤。
...【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述预设的文本编码器是根据多个训练数据训练获得的,所述训练数据中的每个训练数据是通过联邦学习服务器进行联合学习获得的,所述联邦学习服务器用于将多个设备的数据进行联合学习。
3.如权利要求1所述的方法,其特征在于,所述第一设备根据多个所述相似向量生成所述目标向量,包括:
4.如权利要求3所述的方法,其特征在于,所述目标向量满足:
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
6.一种文本分类装置,其特征在于,所述装置包括:
7.如权利要求6所述的装置,其特征在于,所述预设的文本编码器是根据多个...
【专利技术属性】
技术研发人员:乔振浩,徐书豪,王斌斌,王亚平,刘振宇,王志刚,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。