本发明专利技术涉及智能决策领域,揭露一种文本多标签分类方法,包括:提取文本集中每个文本对应的文本标签,得到文本标签集;对文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个文本标签簇构建对应的聚类标签;对聚类标签进行筛选,得到聚类标签集;过滤文本集中不属于聚类标签集中聚类标签对应的文本标签簇的文本标签,利用过滤后的文本集训练模型得到目标标签分类模型;当接收待分类文本时,利用目标标签分类模型对待分类文本进行标签分类,得到分类结果。本发明专利技术还涉及一种区块链技术,所述文本标签可以存储在区块链节点中。本发明专利技术还提出一种文本多标签分类装置、设备以及介质。本发明专利技术可以提高文本多标签分类的效率。本发明专利技术可以提高文本多标签分类的效率。本发明专利技术可以提高文本多标签分类的效率。
【技术实现步骤摘要】
文本多标签分类方法、装置、设备及存储介质
[0001]本专利技术涉及智能决策领域,尤其涉及一种文本多标签分类方法、装置、电子设备及可读存储介质。
技术介绍
[0002]大规模文本多元标签分类是从大量的标签集中寻找最相关标签的任务,目前的文本多元标签分类主要是依托深度学习模型进行分类。
[0003]但是在训练深度学习模型的过程中,因训练数据中标签种类特别多,很多标签数据稀缺,标签价值较低,导致模型训练计算量非常大,训练的模型参数较多,从而导致应用模型进行多元标签分类时速度较慢,降低了文本多标签分类的效率。
技术实现思路
[0004]本专利技术提供一种文本多标签分类方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高文本多标签分类的效率。
[0005]为实现上述目的,本专利技术提供的一种文本多标签分类方法,包括:
[0006]获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;
[0007]对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;
[0008]将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;
[0009]按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;
[0010]利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;
[0011]利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;
[0012]选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
[0013]过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
[0014]当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
[0015]可选地,所述对所述文本标签集进行聚类,得到一个或者多个文本标签簇,包括:
[0016]对所述文本标签集中的每个文本标签进行向量化处理,得到文本标签向量;
[0017]计算任意两个所述文本标签向量的向量距离;
[0018]利用所述向量距离对所述文本标签集中的所有文本标签进行聚类,得到一个或者多个文本标签簇。
[0019]可选地,所述利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,包括:
[0020]利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到每个所述聚类标签对应的识别概率;
[0021]选取所述识别概率大于预设阈值的聚类标签,得到所述识别标签。
[0022]可选地,所述利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集,包括:
[0023]汇总所述识别标签,得到识别标签集;
[0024]汇总所述聚类标签,得到初始聚类标签集;
[0025]将所述识别标签集与所述初始聚类标签集进行交集运算,得到所述聚类标签集。
[0026]可选地,所述过滤所述文本集中不属于所述目标文本标签簇的文本标签,包括:
[0027]汇总所有所述目标文本标签簇中的文本标签,得到标准文本标签集;
[0028]计算所述标准文本标签集在所述文本标签集中的补集,得到过滤标签集;
[0029]利用所述过滤标签集对所述文本集中每个文本对应所有文本标签进行过滤,得到标准文本;
[0030]汇总所有标准文本得到标准文本集。
[0031]可选地,所述为每个所述文本标签簇构建对应的聚类标签,包括:
[0032]计算所有所述文本标签簇的数量;
[0033]根据所述计算的数量构建相同维度的自然数序列;
[0034]将所述自然数序列中的每个自然数与预设字符组合,得到对应的簇标签;
[0035]将所述簇标签确定为任一所述文本标签簇的聚类标签。
[0036]可选地,所述利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型之前,所述方法还包括:
[0037]利用预构建的自然语言处理模型作为基础模型;
[0038]在所述基础模型后增加全连接网络及sigmoid函数,得到所述初始分类模型。
[0039]为了解决上述问题,本专利技术还提供一种文本多标签分类装置,所述装置包括:
[0040]标签过滤模块,用于获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
[0041]模型训练模块,用于过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
[0042]标签分类模块,用于当接收待分类文本时,利用所述目标标签分类模型对所述待
分类文本进行标签分类,得到分类结果。
[0043]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0044]存储器,存储至少一个计算机程序;及
[0045]处理器,执行所述存储器中存储的计算机程序以实现上述所述的文本多标签分类方法。
[0046]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的文本多标签分类方法。
[0047]本专利技术实施例提取所述文本集中每个文本对应的文本标签,得到文本标签集;对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签,对标签聚类降低标签数量,提高了后续模型的训练速度;将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集,对聚类标签进一步本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本多标签分类方法,其特征在于,所述方法包括:获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。2.如权利要求1所述的文本多标签分类方法,其特征在于,所述对所述文本标签集进行聚类,得到一个或者多个文本标签簇,包括:对所述文本标签集中的每个文本标签进行向量化处理,得到文本标签向量;计算任意两个所述文本标签向量的向量距离;利用所述向量距离对所述文本标签集中的所有文本标签进行聚类,得到一个或者多个文本标签簇。3.如权利要求1所述的文本多标签分类方法,其特征在于,所述利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,包括:利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到每个所述聚类标签对应的识别概率;选取所述识别概率大于预设阈值的聚类标签,得到所述识别标签。4.如权利要求1所述的文本多标签分类方法,其特征在于,所述利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集,包括:汇总所述识别标签,得到识别标签集;汇总所述聚类标签,得到初始聚类标签集;将所述识别标签集与所述初始聚类标签集进行交集运算,得到所述聚类标签集。5.如权利要求1所述的文本多标签分类方法,其特征在于,所述过滤所述文本集中不属于所述目标文本标签簇的文本标签,包括:汇总所有所述目标文本标签簇中的文本标签,得到标准文本标签集;计算所述标准文本标签集在所述文本标签集中的补集,得到过滤标签集;利用所述过滤标签集对所述文本集...
【专利技术属性】
技术研发人员:方俊波,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。