分类模型训练、语义分类方法、装置、设备和介质制造方法及图纸

技术编号：34769088 阅读：17 留言：0更新日期：2022-08-31 19:26

本公开提供了一种分类模型训练、语义分类方法、装置、设备和介质，涉及人工智能领域，尤其涉及知识图谱、深度学习和自然语义处理等技术。具体实现方案为：获取样本问询模板和样本问询模板中待预测类别的标签类别；其中，样本问询模板基于样本问询语句和待预测类别的数量构建；将样本问询模板输入至预先构建的语义分类模型，得到待预测类别的样本语义类别；根据样本语义类别和待预测类别的标签类别，训练语义分类模型。根据本公开的技术，提高了模型的通用性，能够应对样本不均衡问题。能够应对样本不均衡问题。能够应对样本不均衡问题。

全部详细技术资料下载

【技术实现步骤摘要】
分类模型训练、语义分类方法、装置、设备和介质

[0001]本公开涉及人工智能
，尤其涉及知识图谱、深度学习和自然语义处理等技术。

技术介绍

[0002]文本分类又称自动文本分类，是指计算机将载有信息的文本映射到预先给定的某一类别或某几类别主题的过程，可用于情感分析、话题标记、新闻分类、问答系统、自然语言推理、对话行为分类、关系分类和事件预测等诸多场景。

技术实现思路

[0003]本公开提供了一种分类模型训练、语义分类方法、装置、设备和介质。
[0004]根据本公开的一方面，提供了一种分类模型训练方法，包括：
[0005]获取样本问询模板和样本问询模板中待预测类别的标签类别；其中，样本问询模板基于样本问询语句和待预测类别的数量构建；
[0006]将样本问询模板输入至预先构建的语义分类模型，得到待预测类别的样本语义类别；
[0007]根据样本语义类别和待预测类别的标签类别，训练语义分类模型。
[0008]根据本公开的另一方面，还提供了一种语义分类方法，包括：
[0009]获取预测问询模板；其中，预测问询模板基于预测问询语句和待预测类别的数量构建；
[0010]根据预测问询模板，得到待预测类别的预测语义类别。
[0011]根据本公开的另一方面，还提供了一种电子设备，包括：
[0012]至少一个处理器；以及
[0013]与至少一个处理器通信连接的存储器；其中，
[0014]存储器存储有可被至少一个处理器执行的指令，指...

【技术保护点】

【技术特征摘要】
1.一种分类模型训练方法，包括：获取样本问询模板和所述样本问询模板中待预测类别的标签类别；其中，所述样本问询模板基于样本问询语句和所述待预测类别的数量构建；将所述样本问询模板输入至预先构建的语义分类模型，得到所述待预测类别的样本语义类别；根据所述样本语义类别和所述待预测类别的标签类别，训练所述语义分类模型。2.根据权利要求1所述的方法，其中，所述样本问询模板采用以下方式构建得到：构建包括样本语义类别填充域的样本类别填充语句；其中，所述样本语义类别填充域的数量与所述待预测类别的数量相等；所述样本语义类别填充域用于填充相应待预测类别的样本语义类别；根据所述样本问询语句和所述样本类别填充语句，构建所述样本问询模板。3.根据权利要求2所述的方法，其中，所述待预测类别所属体系的数量为至少一个；所述构建包括样本语义类别填充域的样本类别填充语句，包括：针对任一体系，构建包括样本语义类别填充域的样本体系填充子句；其中，所述样本语义类别填充域的数量与该体系下待预测类别的数量相等；根据不同样本体系填充子句，确定所述样本类别填充语句。4.根据权利要求3所述的方法，其中，所述样本类别填充语句中不同样本体系填充子句之间设置有子句分隔符；和/或，所述样本体系填充子句中不同样本语义类别填充域之间设置有域分隔符。5.根据权利要求4所述的方法，其中，若所述样本体系填充子句中设置有域分隔符，则相同样本体系填充子句中的域分隔符相同，且不同样本体系填充子句中的域分隔符不同。6.根据权利要求1
‑
5任一项所述的方法，其中，所述根据所述样本语义类别和所述待预测类别的标签类别，训练所述语义分类模型，包括：根据所述样本语义类别和所述标签类别，确定标签异常类型；根据所述标签异常类型对应的标签校正方式，调整所述标签类别；根据所述样本语义类别和调整后的标签类别，训练所述语义分类模型。7.根据权利要求6所述的方法，其中，所述根据所述样本语义类别和所述标签类别，确定标签异常类型，包括：若所述样本语义类别为所述标签类别的下位类别，则确定所述标签异常类型为上位预测下位类型；若所述样本语义类别为所述标签类别的同源变形类别，则确定所述标签异常类型为噪音类型；若所述样本语义类别为所述标签类别的可拆分类别的组合类别，则确定所述标签异常类型为混淆类型。8.根据权利要求7所述的方法，其中，所述根据所述标签异常类型对应的标签校正方式，调整所述标签类别，包括：若所述标签异常类型为上位预测下位类型，则将所述标签类别替换为所述样本语义类别；若所述标签异常类型为噪音类型，则根据所述标签类别的同源变形类别的可替代标
签，调整所述标签类别；若所述标签异常类型为混淆类型，则将所述标签类别替换为所述样本语义类别或所述标签类别的可拆分类别。9.根据权利要求1
‑
8任一项所述的方法，其中，所述将所述样本问询模板输入至预先构建的语义分类模型，得到所述待预测类别的样本语义类别，包括：将所述样本问询模板输入至预先构建的语义分类模型，得到所述待预测类别的至少一个样本语义字符；将各所述样本语义字符按照预测顺序组合，得到所述待预测类别的样本语义类别。10.根据权利要求9所述的方法，其中，所述将所述样本问询模板输入至预先构建的语义分类模型，得到所述待预测类别的至少一个样本语义字符，包括：将所述样本问询模板输入至预先构建的语义分类模型，以提取所述样本问询模板中的样本语义特征，并对所述样本语义特征进行特征变换，得到所述待预测类别的至少一个样本语义字符。11.一种语义分类方法，包括：获取预测问询模板；其中，所述预测问询模板基于预测问询语句和待预测类别的数量构建；根据所述预测问询模板，得到所述待预测类别的预测语义类别。12.根据权利要求11所述的方法，其中，所述预测问询模板采用以下方式构建得到：构建包括预测语义类别填充域的预测类别填充语句；其中，所述预测语义类别填充域的数量与所述待预测类别的数量相等；所述预测语义类别填充域用于填充相应待预测类别的预测语义类别；根据所述预测问询语句和所述预测类别填充语句，构建所述预测问询模板。13.根据权利要求12所述的方法，其中，所述待预测类别所属体系的数量为至少一个；所述构建包括预测语义类别填充域的预测类别填充语句，包括：针对任一体系，构建包括预测语义类别填充域的预测体系填充子句；其中，所述预测语义类别填充域的数量与该体系下待预测类别的数量相等；根据不同预测体系填充子句，确定所述预测类别填充语句。14.根据权利要求13所述的方法，其中，所述预测类别填充语句中不同预测体系填充子句之间设置有子句分隔符；和/或，所述预测体系填充子句中不同预测语义类别填充域之间设置有域分隔符。15.根据权利要求14所述的方法，其中，若所述预测体系填充子句中设置有域分隔符，则相同预测体系填充子句中的域分隔符相同，且不同预测体系填充子句中的域分隔符不同。16.根据权利要求11
‑
15任一项所述的方法，其中，所述根据所述预测问询模板，得到所述待预测类别的预测语义类别，包括：根据所述预测问询模板，确定所述待预测类别的至少一个预测语义字符；将各所述预测语义字符按照预测顺序组合，得到所述待预测类别的预测语义类别。17.根据权利要求16所述的方法，其中，所述至少一个预测语义字符中相同预测顺序的预测语义字符为至少两个；
所述将各所述预测语义字符按照预测顺序组合，得到所述待预测类别的预测语义类别，包括：将不同预测顺序的各所述预测语义字符，按照预测顺序组合，得到至少一个候选语义类别；根据所述候选语义类别中不同预测语义字符的字符预测概率，确定所述候选语义类别的类别预测概率；根据所述类别预测概率，以及所述候选语义类别与标准语义类别库中各标准语义类别的匹配结果，从各候选语义类别中选取所述预测语义类别。18.根据权利要求16所述的方法，其中，所述根据所述预测问询模板，确定所述待预测类别的至少一个预测语义字符，包括：提取所述预测问询模板中的预测语义特征；对所述预测语义特征进行特征变换，得到所述待预测类别的至少一个预测语义字符。19.一种分类模型训练装置，包括：样本问询模板获取模块，用于获取样本问询模板和所述样本问询模板中待预测类别的标签类别；其中，所述样本问询模板基于样本问询语句和所述待预测类别的数量构建；样本语义类别确定模块，用于将所述样本问询模板输入至预先构建的语义分类模型，得到所述待预测类别的样本语义类别；语义分类模型训练模块，用于根据所述样本语义类别和所述待预测类别的标签类别，训练所述语义分类模型。20.根据权利要求19所述的装置，其中，所述装置还包括样本问询模板构建模块，具体包括：样本类别填充语句构建单元，用于构建包括样本语义类别填充域的样本类别填充语句；其中，所述样本语义类别填充域的数量与所述待预测类别的数量相等；所述样本语义类别填充域用于填充相应待预测类别的样本语义类别；样本问询模板...

【专利技术属性】
技术研发人员：林泽南，秦华鹏，赵岷，张国鑫，吕雅娟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人