序列标注模型训练方法、装置及电子设备制造方法及图纸

技术编号:27772362 阅读:12 留言:0更新日期:2021-03-23 12:53
本申请公开了一种模型训练方法、装置及电子设备,涉及自然语言处理、深度学习等人工智能技术领域。具体实现方案为:搜索与搜索文本匹配的目标标题;基于搜索文本对目标标题中每个字进行标注,得到目标标题的第一标签;利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,训练语料中包括搜索文本的目标标题以及第一标签。即在训练过程中,无需人工对大量数据进行标注得到训练语料进行训练,可提高模型训练效率。

【技术实现步骤摘要】
序列标注模型训练方法、装置及电子设备
本申请涉及计算机技术中的自然语言处理、深度学习等人工智能
,尤其涉及一种序列标注模型训练方法、装置及电子设备。
技术介绍
随着互联网技术的发展,各种应用层出不穷,每日有大量的文章或视频等多媒体信息产出,强大的用户原创内容(UserGeneratedContent,UGC)生成能力能够快速覆盖各个领域的知识或娱乐等需求。但是,伴随着规模增长,自媒体生产者往往为了吸引眼球争取流量,标题冗余问题也逐步显现,比如“牛奶箱制作书架,简单又实用!”、“网评喝过一次不愿再喝的几款饮料,你若喝过两种以上够倒霉了”等,冗余的标题对后续搜索或召回匹配时产生干扰,因此,有必要对标题中的核心片段进行提取。
技术实现思路
本申请提供一种序列标注模型训练方法、装置及电子设备。第一方面,本申请一个实施例提供一种序列标注模型训练方法,所述方法包括:搜索与搜索文本匹配的目标标题;基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签;利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,所述训练语料中包括所述搜索文本的目标标题以及所述第一标签。在本实施例的模型训练方法中,首先通过搜索文本,搜索与其匹配的目标标题,再对目标标题中每个字进行标注,得到目标标题的第一标签,利用搜索文本的目标标题以及目标标题的第一标签对序列标注模型进行训练,得到目标序列标注模型。即在训练过程中,无需人工对大量数据进行标注得到训练语料进行训练,可提高模型训练效率。第二方面,本申请一个实施例提供一种序列标注模型训练装置,所述装置包括:搜索模块,用于搜索与搜索文本匹配的目标标题;标注模块,用于基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签;训练模块,用于利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,所述训练语料中包括所述搜索文本的目标标题以及所述第一标签。第三方面,本申请一个实施例还提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的序列标注模型训练方法。第四方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请各实施例提供的序列标注模型训练方法。第五方面,本申请一个实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序用于使所述计算机执行本申请各实施例提供的序列标注模型训练方法。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请提供的一个实施例的序列标注模型训练方法的流程示意图之一;图2是本申请提供的一个实施例的标题核心片段提取方法的流程示意图之一;图3是本申请提供的一个实施例的基于序列标注模型训练方法得到的目标序列标注模型的标题核心片段提取方法的流程示意图之二;图4是本申请提供的一个实施例的序列标注模型的结构示意图;图5是本申请提供的一个实施例的序列标注模型训练装置的结构图;图6是本申请提供的一个实施例的标题核心片段提取装置的结构图;图7是用来实现本申请实施例的序列标注模型训练方法或标题核心片段提取方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。如图1所示,根据本申请的实施例,本申请提供一种序列标注模型训练方法,方法包括:步骤S101:搜索与搜索文本匹配的目标标题。各种网页或应用层出不穷,每日有大量的多媒体信息产生,例如,多媒体信息包括文章、视频等。每个多媒体信息有对应的标题,在本实施例的训练方法中,首先,可搜索与搜索文本匹配的目标标题。作为一个示例,目标标题与该搜索文本之间的文本相似度大于预设相似度。步骤S102:基于搜索文本对目标标题中每个字进行标注,得到目标标题的第一标签。确定搜索文本的目标标题后,可利用搜索文本对目标标题中的每个字进行标注,从而得到目标标题的第一标签。可以理解,目标标题的第一标签中包括目标标题中每个字的标签。需要说明的是,搜索文本的数量可以有多个,对于一个搜索文本,目标标题的数量可以至少两个,目标标题的数量为多个搜索文本的目标标题的数量和,即目标标题的数量可以多个,则对每个目标标题中每个字进行标注,得到每个目标标题的第一标签。需要说明的是,上述目标标题的数量可以是一个或多个,上述搜索文本可以是搜索字,例如,“牛奶箱怎么做书架”等,搜索文本的数量可以是多个,例如,“牛奶箱怎么做书架”和“馒头怎么做”等。即利用多个搜索文本,从在多个历史多媒体信息的标题中搜索与搜索文本匹配的标题,对于每个搜索文本,可搜索到与其匹配的多个目标标题。如此,可得到多个搜索文本的目标标题,以及得到多个搜索文本的目标标题的第一标签,训练语料中包括多个搜索文本的目标标题以及第一标签。步骤S103:利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,训练语料中包括搜索文本的目标标题以及第一标签。利用搜索文本的目标标题以及目标标题的第一标签对序列标注模型进行训练,得到目标序列标注模型。在本实施例的序列标注模型训练方法中,首先通过搜索文本,搜索与其匹配的目标标题,再对目标标题中每个字进行标注,得到目标标题的第一标签,利用搜索文本的目标标题以及目标标题的第一标签对序列标注模型进行训练,得到目标序列标注模型。即在训练过程中,无需人工对大量数据进行标注得到训练语料进行训练,可提高模型训练效率。在一个示例中,可在多个历史多媒体信息的标题中搜索与搜索文本匹配的目标标题,多个历史多媒体信息可以理解为在历史的预设时间段内在网页、一个应用或多个应用中产生的多媒体信息等。通过在多个历史多媒体信息的标题中搜索多个标题,并抽取目标标题,通过由搜索文本的目标标题以及目标标题的第一标签组成的训练语料进行训练,可提高得到的目标分类模型的性能。在一个实施例中,搜索文本匹配的目标标题之前,还包括:获取第一搜索文本;对第一搜索文本进行数据增强,得到增强文本;将第一搜索文本以及增强文本确定为搜索文本。即搜索文本包括第一搜索文本以及增强文本。在进行搜索之前,需要确定搜索文本,首先,获取第一搜索文本,并对其进行数据增强,得到对应的增强文本,将第一搜索文本以及增强文本作为搜索文本,搜索与搜索文本匹配的多个标题。即在本实施例中,不但使用第一搜索文本文档来自技高网...

【技术保护点】
1.一种序列标注模型训练方法,所述方法包括:/n搜索与搜索文本匹配的目标标题;/n基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签;/n利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,所述训练语料中包括所述搜索文本的目标标题以及所述第一标签。/n

【技术特征摘要】
1.一种序列标注模型训练方法,所述方法包括:
搜索与搜索文本匹配的目标标题;
基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签;
利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,所述训练语料中包括所述搜索文本的目标标题以及所述第一标签。


2.根据权利要求1所述的方法,所述搜索文本匹配的目标标题之前,还包括:
获取第一搜索文本;
对所述第一搜索文本进行数据增强,得到增强文本;
将所述第一搜索文本以及所述增强文本确定为所述搜索文本。


3.根据权利要求1所述的方法,所述基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签,包括:
将所述目标标题中的不在所述搜索文本中或者在所述搜索文本中且相邻的前一个字以及相邻的后一个字不在所述搜索文本中的字,标注为第一目标标签;
将所述目标标题中的在所述搜索文本中,且相邻的前一个字或相邻的后一个字在所述搜索文本中的字,标注为第二目标标签。


4.根据权利要求3所述的方法,所述第二目标标签包括第一子标签、第二子标签和第三子标签;
所述目标标题的至少一个字序列的每个字序列中,顺序最前的字的标签为第一子标签,顺序最后的字的标签为第三子标签,位于所述顺序最前的字与所述顺序最后的字之间的字的标签为第二子标签;
其中,每个字序列中包括连续的至少两个字,且每个字序列中的每个字在所述搜索文本中,且相邻的前一个字或相邻的后一个字在所述搜索文本中。


5.根据权利要求1所述的方法,所述序列标注模型,包括:预训练语言模型、循环神经网络以及标签输出模型,所述预训练语言模型的输入包括所述训练语料,所述循环神经网络的输入包括所述预训练语言模型的输出,所述标签输出模型的输入包括所述循环神经网络的输出。


6.根据权利要求5所述的方法,所述预训练语言模型包括基于转换器的双向编码表征模型,所述循环神经网络包括双向长短时记忆神经网络,所述标签输出模型包括条件随机场模型。


7.根据权利要求1所述的方法,所述搜索与搜索文本匹配的目标标题,包括:
在多个历史多媒体信息的标题中搜索与所述搜索文本匹配的多个第一标题;
根据所述多个第一标题的历史行为日志信息,在所述多个第一标题中确定所述搜索文本的目标标题,其中,所述目标标题为在所述历史行为日志信息中具备所述搜索文本的搜索用户标识的行为记录的标题。


8.一种序列标注模型训练装置,所述装置包括:
搜索模块,用于搜索与搜索文本匹配的目标标题;
标注模块,用于基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签;
训练模块,用于利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,所述训练语料中包括所述搜索文本的目标标...

【专利技术属性】
技术研发人员:宋丹丹姚后清施鹏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1