文本分类方法、装置、模型、设备和计算机可读存储介质制造方法及图纸

技术编号：39260770 阅读：9 留言：0更新日期：2023-10-30 12:12

本公开提供了一种文本分类方法、装置、模型、设备和计算机可读存储介质，该方法包括：获取文本内容和按照第一顺序排序的至少一个候选标签；利用文本分类模型处理文本内容和至少一个候选标签，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率；根据每个候选标签作为目标标签的概率，确定文本内容的目标标签，得到与目标标签对应的文本分类结果。根据本公开的实施例可以提高文本分类处理的场景通用性。提高文本分类处理的场景通用性。提高文本分类处理的场景通用性。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法、装置、模型、设备和计算机可读存储介质

[0001]本公开涉及计算机
，特别涉及一种文本分类方法、装置、模型、设备和计算机可读存储介质。

技术介绍

[0002]随着人工智能的不断创新和发展，文本分类技术日趋成熟，并在分类效果和灵活性上取得了突破性进展，以用于满足日常生产需求。在实际应用中，需要根据文本分类的具体场景构建确定的分类体系和标准，以及收集数据进行人工标注，以得到具体场景下的文本分类模型，文本分类处理的场景通用性较低。

技术实现思路

[0003]本公开提供一种文本分类方法、装置、模型、设备和计算机可读存储介质，根据该方法，可以提高文本分类处理的场景通用性。
[0004]第一方面，本公开提供了一种文本分类方法，该文本分类方法包括：获取文本内容和按照第一顺序排序的至少一个候选标签；利用文本分类模型处理所述文本内容和所述至少一个候选标签，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率；根据每个候选标签作为目标标签的概率，确定所述文本内容的目标标签，得到与所述目标标签对应的文本分类结果。
[0005]第二方面，本公开提供了一种文本分类装置，该文本分类装置包括：获取模块，用于获取文本内容和按照第一顺序排序的至少一个候选标签；处理模块，用于利用文本分类模型处理所述文本内容和所述至少一个候选标签，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：获取文本内容和按照第一顺序排序的至少一个候选标签；利用文本分类模型处理所述文本内容和所述至少一个候选标签，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率；根据每个候选标签作为目标标签的概率，确定所述文本内容的目标标签，得到与所述目标标签对应的文本分类结果。2.根据权利要求1所述的方法，其特征在于，所述文本分类模型包括：语义编码模块、拼接模块和分类模块；所述利用文本分类模型处理所述文本内容和所述至少一个候选标签，得到按照所述第一顺序排序的至少一个分类预测结果，包括：对所述文本内容和所述按照第一顺序排序的至少一个候选标签进行语义编码，得到所述文本内容的语义向量和所述至少一个候选标签的语义向量；对所述文本内容的语义向量和所述至少一个候选标签的语义向量，基于所述第一顺序进行拼接，得到拼接向量；基于所述拼接向量对所述文本内容的目标标签进行分类预测，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率。3.根据权利要求2所述的方法，其特征在于，所述至少一个候选标签的语义向量为一个第一候选标签语义向量或多个第二候选标签语义向量；所述对所述文本内容和所述按照第一顺序排序的至少一个候选标签进行语义编码，得到所述文本内容的语义向量和所述至少一个候选标签的语义向量，包括：对所述文本内容进行语义编码，得到所述文本内容的语义向量；按照所述第一顺序拼接所述至少一个候选标签，得到拼接标签内容，对所述拼接标签内容进行语义编码，得到一个第一候选标签语义向量；或者，按照所述第一顺序将所述至少一个候选标签进行语义编码，得到与所述第一顺序对应的多个第二候选标签语义向量。4.根据权利要求3所述的方法，其特征在于，所述对所述文本内容的语义向量和所述至少一个候选标签的语义向量，基于所述第一顺序进行拼接，得到拼接向量，包括：在所述至少一个候选标签的语义向量为所述一个第一候选标签语义向量的情况下，将所述文本内容的语义向量与所述第一候选标签语义向量进行拼接，得到一个第一拼接向量；或者，在所述至少一个候选标签的语义向量为多个第二候选标签语义向量的情况下，将所述文本内容的语义向量与按照所述第一顺序排序的多个第二候选标签语义向量进行拼接，得到一个第二拼接向量；或者，在所述至少一个候选标签的语义向量为多个第二候选标签语义向量的情况下，按照所述第一顺序排序将所述文本内容的语义向量分别与每个第二候选标签语义向量进行拼接，得到与所述第一顺序对应的多个第三拼接向量。5.根据权利要求4所述的方法，其特征在于，在所述拼接向量为一个第一拼接向量或一个第二拼接向量的情况下，所述多个分类预测结果包括多个第一分类结果预测值；
所述基于所述拼接向量对所述文本内容的目标标签进行分类预测，得到按照所述第一顺序排序的至少一个分类预测结果，包括：根据所述一个第一拼接向量或所述一个第二拼接向量，对所述文本内容的目标标签进行分类预测，得到对应的第一分类预测结果序列；其中，所述第一分类预测结果序列中包括与所述第一顺序对应的多个第一分类结果预测值，每个排序位置的第一分类结果预测值用于表征相同排序位置的候选标签作为目标标签的概率。6.根据权利要求4所述的方法...

【专利技术属性】
技术研发人员：廖宇康，
申请(专利权)人：北京中关村科金技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人