System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种文本分类分级方法、装置、设备及存储介质。
技术介绍
1、企业内部积累了大量非结构化数据,例如合同、档案、接口交互日志等,这些非结构化数据体量庞大且种类繁杂。一般情况下,业务相关的非结构化数据多为长文本,为保证数据合规与数据安全,需要对长文本数据进行分类分级以实现标签化管理。
2、目前常见的长文本分类分级方式有正则表达式匹配方式和人工分拣方式。正则表达式匹配方式是通过查看部分样本总结出正则模式,待分类长文本匹配成功划分到对应分类分级,匹配不成功则无分类分级,正则匹配的覆盖率低,误判和漏判较多;人工分拣方式的成本高效率低,且不同员工对非结构化数据的理解有差异,导致匹配的分类分级结果差异性大、准确性不佳。
技术实现思路
1、本专利技术提供了一种文本分类分级方法、装置、设备及存储介质,以实现快速对长文本数据进行准确分类分级,提高分类分级效率和正确率。
2、根据本专利技术的一方面,提供了一种文本分类分级方法,该方法包括:
3、对获取的待分类文本进行切片处理,得到至少一个文本切片;
4、将各所述文本切片输入目标文本分类模型,得到各所述文本切片的切片标签概率序列和切片分类特征向量;
5、将各所述切片分类特征向量输入目标文本检索模型,得到各所述文本切片的切片相似度标签集;
6、根据各所述切片标签概率序列确定所述待分类文本的第一预测标签集,以及,根据各所述切片相似度标签集确定所述待分类文本的第
7、对所述第一预测标签集和第二预测标签集进行融合,得到所述待分类文本的目标分类分级标签。
8、可选的,所述将各所述文本切片输入目标文本分类模型,得到各所述文本切片的切片标签概率序列和切片分类特征向量,包括:
9、针对每个文本切片,采用目标文本分类模型对所述文本切片进行分类标签数量次二分类,输出语义特征向量以及分类标签集合中每个分类标签对应的切片分类概率值,其中,所述分类标签数量为所述分类标签集合包含的分类标签的数量;
10、将各所述分类标签对应的切片分类概率值构成切片标签概率序列;
11、将所述语义特征向量作为切片分类特征向量。
12、可选的,所述根据各所述切片标签概率序列确定所述待分类文本的第一预测标签集,包括:
13、将各所述切片标签概率序列中同一分类标签对应的切片分类概率值相加,得到文本标签概率序列;
14、获取概率阈值,将所述文本标签概率序列中大于所述概率阈值的文本标签概率对应的分类标签确定为第一预测标签,并添加至第一预测标签集。
15、可选的,所述将各所述切片分类特征向量输入目标文本检索模型,得到各所述文本切片的切片相似度标签集,包括:
16、针对每个切片分类特征向量,采用目标文本检索模型,确定所述切片分类特征向量与检索文本特征向量库中每个检索文本特征向量的切片特征相似度;
17、将大于检索阈值的切片特征相似度对应的检索文本特征向量作为候选特征向量;
18、将所述候选特征向量关联的检索标签作为切片相似度标签添加至切片相似度标签集。
19、可选的,所述根据各所述切片相似度标签集确定所述待分类文本的第二预测标签集,包括:
20、将各所述切片相似度标签集中同一切片相似度标签对应的切片特征相似度相加,得到各所述切片相似度标签的文本相似度;
21、获取相似度阈值,将大于所述相似度阈值的文本相似度对应的切片相似度标签确定为第二预测标签,并添加至第二预测标签集。
22、可选的,所述目标文本检索模型的训练步骤包括:
23、将两个训练分类特征向量形成训练特征向量对,对所述训练特征向量对进行相似度标注,得到标准相似度;
24、将所述训练特征向量对输入待训练文本检索模型,获得输出的实际相似度;
25、根据所述标准相似度和所述实际相似度,获得拟合损失函数;
26、通过所述拟合损失函数对所述待训练文本检索模型进行反向传播,得到所述目标文本检索模型。
27、可选的,所述对所述第一预测标签集和第二预测标签集进行融合,得到所述待分类文本的目标分类分级标签,包括:
28、获取融合相似度阈值,若所述第二预测标签集中存在文本相似度大于所述融合相似度阈值的第二预测标签,则将所述文本相似度大于所述融合相似度阈值的第二预测标签作为目标分类分级标签;否则,
29、将所述第一预测标签集中的第一预测标签作为所述目标分类分级标签。
30、根据本专利技术的另一方面,提供了一种文本分类分级装置,该装置包括:
31、文本切片模块,用于对获取的待分类文本进行切片处理,得到至少一个文本切片;
32、文本分类模块,用于将各所述文本切片输入目标文本分类模型,得到各所述文本切片的切片标签概率序列和切片分类特征向量;
33、文本检索模块,用于将各所述切片分类特征向量输入目标文本检索模型,得到各所述文本切片的切片相似度标签集;
34、标签确定模块,用于根据各所述切片标签概率序列确定所述待分类文本的第一预测标签集,以及,根据各所述切片相似度标签集确定所述待分类文本的第二预测标签集;
35、标签融合模块,用于对所述第一预测标签集和第二预测标签集进行融合,得到所述待分类文本的目标分类分级标签。
36、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
37、至少一个处理器;以及
38、与所述至少一个处理器通信连接的存储器;其中,
39、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的文本分类分级方法。
40、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的文本分类分级方法。
41、本专利技术实施例的技术方案,通过对获取的待分类文本进行切片处理,得到至少一个文本切片;将各文本切片输入目标文本分类模型,得到各文本切片的切片标签概率序列和切片分类特征向量;将各切片分类特征向量输入目标文本检索模型,得到各文本切片的切片相似度标签集;根据各切片标签概率序列确定待分类文本的第一预测标签集,以及,根据各切片相似度标签集确定待分类文本的第二预测标签集;对第一预测标签集和第二预测标签集进行融合,得到待分类文本的目标分类分级标签,解决了目前长文本分类分级方式成本高、效率低、分类分级结果差异性大、准确性不佳的问题,实现了对长文本数据分类分级流程自动化,提高了分类分级效率和正确率,从而助力企业进行数据资产梳理与数字化转型。
42、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要本文档来自技高网...
【技术保护点】
1.一种文本分类分级方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将各所述文本切片输入目标文本分类模型,得到各所述文本切片的切片标签概率序列和切片分类特征向量,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据各所述切片标签概率序列确定所述待分类文本的第一预测标签集,包括:
4.根据权利要求1所述的方法,其特征在于,所述将各所述切片分类特征向量输入目标文本检索模型,得到各所述文本切片的切片相似度标签集,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据各所述切片相似度标签集确定所述待分类文本的第二预测标签集,包括:
6.根据权利要求1所述的方法,其特征在于,所述目标文本检索模型的训练步骤包括:
7.根据权利要求4所述的方法,其特征在于,所述对所述第一预测标签集和第二预测标签集进行融合,得到所述待分类文本的目标分类分级标签,包括:
8.一种文本分类分级装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一
...【技术特征摘要】
1.一种文本分类分级方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将各所述文本切片输入目标文本分类模型,得到各所述文本切片的切片标签概率序列和切片分类特征向量,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据各所述切片标签概率序列确定所述待分类文本的第一预测标签集,包括:
4.根据权利要求1所述的方法,其特征在于,所述将各所述切片分类特征向量输入目标文本检索模型,得到各所述文本切片的切片相似度标签集,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据各所述切片相似度标签集确定所述...
【专利技术属性】
技术研发人员:钟丹东,卢瑶,
申请(专利权)人:江苏保旺达软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。