【技术实现步骤摘要】
序列标注模型训练方法、装置及电子设备
本申请涉及计算机技术中的自然语言处理、深度学习等人工智能
,尤其涉及一种序列标注模型训练方法、装置及电子设备。
技术介绍
随着互联网技术的发展,各种应用层出不穷,每日有大量的文章或视频等多媒体信息产出,强大的用户原创内容(UserGeneratedContent,UGC)生成能力能够快速覆盖各个领域的知识或娱乐等需求。但是,伴随着规模增长,自媒体生产者往往为了吸引眼球争取流量,标题冗余问题也逐步显现,比如“牛奶箱制作书架,简单又实用!”、“网评喝过一次不愿再喝的几款饮料,你若喝过两种以上够倒霉了”等,冗余的标题对后续搜索或召回匹配时产生干扰,因此,有必要对标题中的核心片段进行提取。
技术实现思路
本申请提供一种序列标注模型训练方法、装置及电子设备。第一方面,本申请一个实施例提供一种序列标注模型训练方法,所述方法包括:搜索与搜索文本匹配的目标标题;基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签;利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,所述训练语料中包括所述搜索文本的目标标题以及所述第一标签。在本实施例的模型训练方法中,首先通过搜索文本,搜索与其匹配的目标标题,再对目标标题中每个字进行标注,得到目标标题的第一标签,利用搜索文本的目标标题以及目标标题的第一标签对序列标注模型进行训练,得到目标序列标注模型。即在训练过程中,无需人工对大量数据进行标注得到训练语料进行训 ...
【技术保护点】
1.一种序列标注模型训练方法,所述方法包括:/n搜索与搜索文本匹配的目标标题;/n基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签;/n利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,所述训练语料中包括所述搜索文本的目标标题以及所述第一标签。/n
【技术特征摘要】
1.一种序列标注模型训练方法,所述方法包括:
搜索与搜索文本匹配的目标标题;
基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签;
利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,所述训练语料中包括所述搜索文本的目标标题以及所述第一标签。
2.根据权利要求1所述的方法,所述搜索文本匹配的目标标题之前,还包括:
获取第一搜索文本;
对所述第一搜索文本进行数据增强,得到增强文本;
将所述第一搜索文本以及所述增强文本确定为所述搜索文本。
3.根据权利要求1所述的方法,所述基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签,包括:
将所述目标标题中的不在所述搜索文本中或者在所述搜索文本中且相邻的前一个字以及相邻的后一个字不在所述搜索文本中的字,标注为第一目标标签;
将所述目标标题中的在所述搜索文本中,且相邻的前一个字或相邻的后一个字在所述搜索文本中的字,标注为第二目标标签。
4.根据权利要求3所述的方法,所述第二目标标签包括第一子标签、第二子标签和第三子标签;
所述目标标题的至少一个字序列的每个字序列中,顺序最前的字的标签为第一子标签,顺序最后的字的标签为第三子标签,位于所述顺序最前的字与所述顺序最后的字之间的字的标签为第二子标签;
其中,每个字序列中包括连续的至少两个字,且每个字序列中的每个字在所述搜索文本中,且相邻的前一个字或相邻的后一个字在所述搜索文本中。
5.根据权利要求1所述的方法,所述序列标注模型,包括:预训练语言模型、循环神经网络以及标签输出模型,所述预训练语言模型的输入包括所述训练语料,所述循环神经网络的输入包括所述预训练语言模型的输出,所述标签输出模型的输入包括所述循环神经网络的输出。
6.根据权利要求5所述的方法,所述预训练语言模型包括基于转换器的双向编码表征模型,所述循环神经网络包括双向长短时记忆神经网络,所述标签输出模型包括条件随机场模型。
7.根据权利要求1所述的方法,所述搜索与搜索文本匹配的目标标题,包括:
在多个历史多媒体信息的标题中搜索与所述搜索文本匹配的多个第一标题;
根据所述多个第一标题的历史行为日志信息,在所述多个第一标题中确定所述搜索文本的目标标题,其中,所述目标标题为在所述历史行为日志信息中具备所述搜索文本的搜索用户标识的行为记录的标题。
8.一种序列标注模型训练装置,所述装置包括:
搜索模块,用于搜索与搜索文本匹配的目标标题;
标注模块,用于基于所述搜索文本对所述目标标题中每个字进行标注,得到所述目标标题的第一标签;
训练模块,用于利用训练语料进行序列标注模型训练,得到目标序列标注模型,其中,所述训练语料中包括所述搜索文本的目标标...
【专利技术属性】
技术研发人员:宋丹丹,姚后清,施鹏,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。