【技术实现步骤摘要】
文本分类模型的训练方法、文本分类方法及装置
[0001]本公开涉及人工智能
,尤其涉及自然语言处理、机器学习等
,具体涉及一种文本分类模型的训练方法及装置、文本分类方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]人工智能(Artificial Intelligence,AI)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]文本分类是一种常见的自然语言处理任务。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
[0005]本公开提供了一种文本分类模型的训练方法及装置、文本分类方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种文本分类模型的训练方法,包括:获取样本集,其中,所述样本集包括多个样本,所述多个样本中的每个样本包括样本文本和所述样本文本的类别标签;以及基于所述样本集,对第 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类模型的训练方法,包括:获取样本集,其中,所述样本集包括多个样本,所述多个样本中的每个样本包括样本文本和所述样本文本的类别标签;以及基于所述样本集,对第一文本分类模型的参数进行至少一次调整,以得到经训练的第二文本分类模型,其中,所述至少一次调整中的每一次调整包括:利用当前样本集的第一子集调整当前第一文本分类模型的参数,以得到调整后的第一文本分类模型;利用所述当前样本集的第二子集确定所述调整后的第一文本分类模型的多个第一输出类别各自的第一评价值,其中,所述第二子集与所述第一子集不相交,所述第一评价值指示所述调整后的第一文本分类模型对相应第一输出类别的分类效果;响应于所述多个第一输出类别中的任一第一输出类别的第一评价值小于阈值,从所述当前样本集中删除类别标签为所述第一输出类别的样本;或者响应于所述多个第一输出类别各自的第一评价值均大于或等于所述阈值,将所述调整后的第一文本分类模型确定为所述第二文本分类模型。2.根据权利要求1所述的方法,其中,所述类别标签为数据库中的字段的标识,具有所述类别标签的样本文本为所述字段下的示例性数据项。3.根据权利要求1或2所述的方法,还包括:利用所述第二文本分类模型对待分类文本进行分类,以得到所述待分类文本的预测类别;获取所述待分类文本的类别标注结果;以及响应于所述预测类别与所述类别标注结果不同,基于所述待分类文本和所述类别标注结果调整所述第二文本分类模型的参数,以得到经训练的第三文本分类模型。4.根据权利要求1
‑
3中任一项所述的方法,还包括:确定所述第二文本分类模型的多个第二输出类别各自的预测阈值,其中,所述预测阈值用于响应于所述第二文本分类模型输出的待分类文本属于相应第二输出类别的概率大于所述预测阈值,确定所述待分类文本的预测类别为所述第二输出类别。5.根据权利要求4所述的方法,其中,所述确定所述第二文本分类模型的多个第二输出类别各自的预测阈值包括:对于多个候选预测阈值中的任一候选预测阈值:基于所述候选预测阈值,利用所述第二文本分类模型确定所述当前样本集的第二子集中的每个样本文本的预测类别;以及基于所述当前样本集的第二子集中的每个样本文本的预测类别和类别标签,确定所述多个第二输出类别各自的第二评价值,其中,所述第二评价值指示所述第二文本分类模型对相应第二输出类别的分类效果;以及对于所述多个第二输出类别中的任一第二输出类别,将所述多个候选预测阈值中的使所述第二输出类别的第二评价值最大的候选预测阈值确定为所述第二输出类别的预测阈值。
6.根据权利要求1
‑
5中任一项所述的方法,其中,所述利用当前样本集的第一子集调整当前第一文本分类模型的参数,以得到调整后的第一文本分类模型包括:获取用于提取文本特征的关键词表;对于所述第一子集中的任一样本文本:基于所述关键词表,提取所述样本文本的文本特征;以及将所述文本特征输入所述当前第一文本分类模型,以得到所述当前第一文本分类模型输出的所述样本文本的预测类别;基于所述第一子集中的各样本文本的预测类别和类别标签,确定所述当前第一文本分类模型的损失值;以及基于所述损失值,调整所述当前第一文本分类模型的参数。7.根据权利要求6所述的方法,其中,所述关键词表是通过对所述样本集中的样本文本进行统计分析确定的。8.一种文本分类方法,包括:获取待分类的文本;采用多种分词粒度对所述文本进行分词,以得到所述文本的词集合;以及对于所述词集合中的每一个词,利用文本分类模型确定所述词所属的类别,其中,所述文本分类模型是根据权利要求1
‑
7中任一项所述的方法训练得到的。9.根据权利要求8所述的方法,其中,所述文本为接口数据或网页数据中的值数据。10.一种文本分类模型的训练装置,包括:第一获取模块,被配置为获取样本集,其中,所述样本集包括多个样本,所述多个样本中的每个样本包括样本文本和所述样本文本的类别标签;以及第一调整模块,被配置为基于所述样本集,对第一文本分类模型的参数进行至少一次调整,以得到经训练的第二文本分类模型,其中,所述第一调整模块包括:调整单元,被配置为利用当前样本集的第一子集调整当前第一文本分类模型的参数,以得到调整后的第一...
【专利技术属性】
技术研发人员:张丽,杜悦艺,孙亚生,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。