训练文本审核模型的方法和装置制造方法及图纸

技术编号:34774890 阅读:23 留言:0更新日期:2022-08-31 19:44
本公开提供了训练文本审核模型的方法和装置,涉及人工智能领域,尤其涉及自然语言处理领域。具体实现方案为:获取预训练语言模型、预训练语言微小模型、标注数据、无标注数据;将所述标注数据输入预训练语言模型进行有监督训练,得到教师模型;将所述标注数据输入预训练语言微小模型进行有监督训练,得到学生模型;将所述无标注数据分别输入所述教师模型和所述学生模型,使用教师模型对学生模型进行蒸馏,得到文本审核模型。该实施方式能够在小规模人工标注数据和大规模无标注数据上进行训练,得到效果好、速度快的文本审核模型。速度快的文本审核模型。速度快的文本审核模型。

【技术实现步骤摘要】
训练文本审核模型的方法和装置


[0001]本公开涉及人工智能领域,尤其涉及自然语言处理领域,具体为一种训练文本审核模型的方法和装置。

技术介绍

[0002]文本审核系统是基于自然语言处理技术,用于判断一段文本内容是否遵循互联网、媒体等平台内容规范的一个自动化和智能化系统。常见的文本审核应用场景包括用户签名/昵称、评论/留言、即时通讯文本内容、用户帖子、媒体资讯、商品信息、视频直播弹幕、图文信息等。文本审核处理的违禁类型包括:政治、色情、暴力恐怖、广告推广、低俗辱骂。互联网上每天产生海量的用户数据,人力无法负担如此繁重的审核任务。文本审核系统利用计算机和自然语言处理技术,实现了自动化的内容违规检测和识别,主导或者辅助人工审核的功能,大大减少了相关人员的工作成本。

技术实现思路

[0003]本公开提供了一种训练文本审核模型的方法、装置、设备、存储介质以及计算机程序产品。
[0004]根据本公开的第一方面,提供了一种训练文本审核模型的方法,包括:获取预训练语言模型、预训练语言微小模型、标注数据、无标注数据;将所述标注数据输入预训练语言模型进行有监督训练,得到教师模型;将所述标注数据输入预训练语言微小模型进行有监督训练,得到学生模型;将所述无标注数据分别输入所述教师模型和所述学生模型,使用教师模型对学生模型进行蒸馏,得到文本审核模型。
[0005]根据本公开的第二方面,提供了一种文本审核方法,包括:获取待审核的文本信息;将所述文本信息输入根据第一方面中任一项所述的方法训练出的文本审核模型,输出审核结果。
[0006]根据本公开的第三方面,提供了一种训练文本审核模型的装置,包括:获取单元,被配置成获取预训练语言模型、预训练语言微小模型、标注数据、无标注数据;第一训练单元,被配置成将所述标注数据输入预训练语言模型进行有监督训练,得到教师模型;第二训练单元,被配置成将所述标注数据输入预训练语言微小模型进行有监督训练,得到学生模型;蒸馏单元,被配置成将所述无标注数据分别输入所述教师模型和所述学生模型,使用教师模型对学生模型进行蒸馏,得到文本审核模型。
[0007]根据本公开的第四方面,提供了一种文本审核装置,包括:获取单元,被配置成获取待审核的文本信息;审核单元,被配置成将所述文本信息输入根据第三方面中任一项所述的装置训练出的文本审核模型,输出审核结果。
[0008]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第
一方面中任一项所述的方法。
[0009]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面和第二方面中任一项所述的方法。
[0010]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面和第二方面中任一项所述的方法。
[0011]本公开的实施例提供的训练文本审核模型的方法和装置,通过模型蒸馏的方法将预训练语言模型的知识迁移到预训练语言微小模型中,仅仅损失很小的效果却能达到上千倍的预测速度提升,对于文本审核业务模型落地而言具有重要积极影响。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
[0015]图2是根据本公开的训练文本审核模型的方法的一个实施例的流程图;
[0016]图3a

3b是根据本公开的训练文本审核模型的方法的一个应用场景的示意图;
[0017]图4是根据本公开的文本审核方法的一个实施例的流程图;
[0018]图5是根据本公开的训练文本审核模型的装置的一个实施例的结构示意图;
[0019]图6是根据本公开的文本审核装置的一个实施例的结构示意图;
[0020]图7是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]图1示出了可以应用本公开实施例的训练文本审核模型的方法、训练文本审核模型的装置、文本审核方法或文本审核装置的示例性系统架构100。
[0023]如图1所示,系统架构100可以包括终端101、102,网络103、数据库服务器104和服务器105。网络103用以在终端101、102,数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0024]用户110可以使用终端101、102通过网络103与服务器105进行交互,以接收或发送消息等。终端101、102上可以安装有各种客户端应用,例如模型训练类应用、文本审核类应用、购物类应用、支付类应用、网页浏览器和即时通讯工具等。
[0025]这里的终端101、102可以是硬件,也可以是软件。当终端101、102为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、膝上型便携计算机和台式计算机等等。当终端101、102为软件时,可以安装在上述所列举的
电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0026]数据库服务器104可以是提供各种服务的数据库服务器。例如数据库服务器中可以存储有样本集。样本集中包含有大量的样本。其中,样本可以包括无标注数据和标注数据。这样,用户110也可以通过终端101、102,从数据库服务器104所存储的样本集中选取样本。
[0027]服务器105也可以是提供各种服务的服务器,例如对终端101、102上显示的各种应用提供支持的后台服务器。后台服务器可以利用终端101、102发送的样本集中的样本,对初始模型进行训练,并可以将训练结果(如生成的文本审核模型)发送给终端101、102。这样,用户可以应用生成的文本审核模型进行文本审核。
[0028]这里的数据库服务器104和服务器105同样可以是硬本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练文本审核模型的方法,包括:获取预训练语言模型、预训练语言微小模型、标注数据、无标注数据;将所述标注数据输入预训练语言模型进行有监督训练,得到教师模型;将所述标注数据输入预训练语言微小模型进行有监督训练,得到学生模型;将所述无标注数据分别输入所述教师模型和所述学生模型,使用教师模型对学生模型进行蒸馏,得到文本审核模型。2.根据权利要求1所述的方法,其中,所述将所述无标注数据分别输入所述教师模型和所述学生模型,使用教师模型对学生模型进行蒸馏,得到文本审核模型,包括:将所述无标注数据输入所述教师模型,输出软标签向量;将所述无标注数据输入所述学生模型,输出预测概率向量;根据所述软标签向量和所述预测概率向量计算软标签蒸馏损失;基于所述软标签蒸馏损失调整所述学生模型的网络参数,得到文本审核模型。3.根据权利要求1所述的方法,其中,所述将所述无标注数据分别输入所述教师模型和所述学生模型,使用教师模型对学生模型进行蒸馏,得到文本审核模型,包括:获取所述教师模型的嵌入层第一输出向量和所述学生模型的嵌入层第二输出向量;计算所述嵌入层第一输出向量和所述嵌入层第二输出向量的均方误差作为嵌入层蒸馏损失;基于所述嵌入层蒸馏损失调整所述学生模型的网络参数,得到文本审核模型。4.根据权利要求1所述的方法,其中,所述将所述无标注数据分别输入所述教师模型和所述学生模型,使用教师模型对学生模型进行蒸馏,得到文本审核模型,包括:获取所述教师模型的隐含层第一输出向量和所述学生模型的隐含层第二输出向量;计算所述隐含层第一输出向量和所述隐含层第二输出向量的均方误差作为隐含层蒸馏损失;基于所述隐含层蒸馏损失调整所述学生模型的网络参数,得到文本审核模型。5.根据权利要求1所述的方法,其中,所述将所述无标注数据分别输入所述教师模型和所述学生模型,使用教师模型对学生模型进行蒸馏,得到文本审核模型,包括:对于所述无标注数据的每个元素,获取该元素在所述教师模型中的注意力第一矩阵和所述学生模型中的注意力第二矩阵;计算每个元素的注意力第一矩阵和注意力第二矩阵的均方误差作为注意力蒸馏损失;基于所述注意力蒸馏损失调整所述学生模型的网络参数,得到文本审核模型。6.根据权利要求1所述的方法,其中,所述将所述无标注数据分别输入所述教师模型和所述学生模型,使用教师模型对学生模型进行蒸馏,得到文本审核模型,包括:获取软标签蒸馏损失、嵌入层蒸馏损失、隐含层蒸馏损失、注意力蒸馏损失;基于软标签蒸馏损失、嵌入层蒸馏损失、隐含层蒸馏损失、注意力蒸馏损失的加权和调整所述学生模型的网络参数,得到文本审核模型。7.一种文本审核方法,包括:获取待审核的文本信息;将所述文本信息输入根据权利要求1

6中任一项所述的方法训练出的文本审核模型,输出审核结果。
8.一种训练文本审核模型的装置,包括:获取单元,被配置成获取预训练语言模型、预训练语言微小模型、标注数据、无标注数据;第一训练单元,被配置成将所...

【专利技术属性】
技术研发人员:王赞博曹宇慧黄硕陈永锋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1