关键词与文本匹配方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37155925 阅读:20 留言:0更新日期:2023-04-06 22:17
本公开关于关键词与文本匹配方法、装置、电子设备和存储介质,该方法包括:获取用于检索的关键词;利用第三编码器提取关键词的特征信息;第三编码器基于第三初始编码器与第一编码器进行蒸馏训练的损失值、以及与第二编码器进行协同训练的损失值迭代训练得到;第一编码器和第二编码器基于双塔模型框架训练得到;获取预设的多个候选文本的特征信息;根据关键词的特征信息和多个候选文本的特征信息,确定关键词与各个候选多媒体资源之间的匹配度;根据匹配度,从多个候选多媒体资源中确定与关键词匹配的目标多媒体资源。本方案实现了模型压缩与加速,提高了预测效率和准确率,保证在线实时应用需求。时应用需求。时应用需求。

【技术实现步骤摘要】
关键词与文本匹配方法、装置、电子设备和存储介质


[0001]本公开涉及自然语言处理
,尤其涉及关键词与文本匹配方法、装置、电子设备和存储介质。

技术介绍

[0002]在搜索、推荐、广告领域,高效地计算出文本相似度一直都是一个重要的问题。
[0003]例如,用户会通过在多媒体资源提供商的网站上键入检索信息,去获得感兴趣的多媒体资源内容。多媒体资源内容一般都会有一段类似内容简介的文本描述,为了给用户提供最为匹配的内容,可以将各个多媒体资源的文字描述与用户键入的检索信息进行文本相似度计算,从而获取与用户的检索信息最为匹配的多媒体资源,推荐给用户。
[0004]目前业界普遍使用Bert(Bidirectional Encoder Representations from Transformer,基于Transformer的双向编码器表征)模型作为编码器得到文本特征向量,进行文本相似性计算,然后根据相似度排序进行相关内容的推荐。
[0005]但是在实际应用上面临的问题是,模型太大,训练耗时和计算耗时太长,导致在线应用时,匹配到检索结果的耗时过长,预测效率过低,无法满足实时应用需求;如果使用小模型,准确率又太低,难以匹配到用户满意的多媒体资源。

技术实现思路

[0006]本公开提供关键词与文本匹配方法、装置、电子设备和存储介质,以至少解决相关技术中身体驱动存在骨骼旋转不自然的问题。本公开的技术方案如下:
[0007]根据本公开实施例的第一方面,提供一种关键词与文本匹配方法,所述方法包括:
[0008]获取用于检索的关键词;
[0009]利用第三编码器提取所述关键词的特征信息;所述第三编码器基于第三初始编码器与第一编码器进行蒸馏训练的损失值、以及与第二编码器进行协同训练的损失值迭代训练得到;所述第一编码器用于提取关键词的特征信息,所述第二编码器用于提取文本的特征信息;所述第一编码器和所述第二编码器基于双塔模型框架训练得到;
[0010]获取预设的多个候选文本的特征信息,所述候选文本的特征信息基于所述第二编码器预先提取得到;所述多个候选文本分别为多个候选多媒体资源的描述信息;
[0011]根据所述关键词的特征信息和所述多个候选文本的特征信息,确定所述关键词与各个所述候选多媒体资源之间的匹配度;
[0012]根据所述匹配度,从所述多个候选多媒体资源中确定与所述关键词匹配的目标多媒体资源。
[0013]在一种可能的实施方式中,在获取在线输入的关键词之前,还包括:
[0014]获取样本数据,所述样本数据包括关键词样本数据、正文本样本数据和负文本样本数据,其中,所述正文本样本数据为与所述关键词样本数据的匹配度大于或等于第一阈值的文本样本数据,所述负文本样本数据为所述匹配度小于所述第一阈值的文本样本数
据;
[0015]将所述关键词样本数据输入第一初始编码器,并分别将与所述关键词样本数据对应的正文本样本数据和负文本样本数据输入第二初始编码器;
[0016]获取所述第一初始编码器输出的预测关键词特征信息,并获取所述第二初始编码器输出的预测文本特征信息和所述预测文本特征信息的预测类别;所述预测文本特征信息包括根据所述正文本样本数据输出的第一预测文本特征信息和根据所述负文本样本数据输出的第二预测文本特征信息;
[0017]基于所述预测关键词特征信息、所述第一预测文本特征信息、所述第二预测文本特征信息、所述预测类别,确定本次训练的第一损失值;
[0018]基于所述第一损失值修改所述第一初始编码器和所述第二初始编码器的参数,并继续进行迭代训练,直到所述第一损失值小于预设的第一损失值阈值,得到第一编码器和第二编码器。
[0019]在一种可能的实施方式中,所述基于所述预测关键词特征信息、所述第一预测文本特征信息、所述第二预测文本特征信息、所述预测类别,确定本次训练的第一损失值,包括:
[0020]基于所述预测关键词特征信息和所述第一预测文本特征信息之间的余弦距离、所述预测关键词特征信息和所述第二预测文本特征信息之间的余弦距离,确定本次训练的第一子损失值;
[0021]基于所述预测文本特征信息与对应的预先标注的标准文本特征信息之间的均方误差,确定本次训练的第二子损失值;
[0022]基于所述预测类别与预先标注的标准类别标签,确定第三子损失值;
[0023]基于所述第一子损失值、所述第二子损失值、所述第三子损失值及所述第一子损失值、所述第二子损失值、所述第三子损失值对应的预设权重,确定本次训练的第一损失值。
[0024]在一种可能的实施方式中,在得到第一编码器和第二编码器之后,还包括:
[0025]将所述关键词样本数据分别输入所述第一编码器、第三初始编码器,将与所述关键词样本数据对应的正文本样本数据和负文本样本数据分别输入所述第二编码器;
[0026]获取所述第一编码器输出的预测关键词特征信息和所述第三编码器输出的预测关键词特征信息;
[0027]获取所述第二编码器根据所述正文本样本数据输出的第三预测文本特征信息和根据所述负文本样本数据输出的第四预测文本特征信息;
[0028]基于所述第一编码器输出的预测关键词特征信息、所述第三编码器输出的预测关键词特征信息、所述第三预测文本特征信息、所述第四预测文本特征信息,确定第二损失值;
[0029]基于所述第二损失值修改所述第三初始编码器的参数,并继续对所述第三初始编码器进行迭代训练,直到所述第二损失值小于预设的第二损失值阈值,得到第三编码器。
[0030]在一种可能的实施方式中,所述确定第二损失值,包括:
[0031]基于所述第一编码器输出的预测关键词特征信息和所述第三初始编码器输出的预测关键词特征信息之间的差值,确定本次训练的第四子损失值;
[0032]基于所述第三编码器输出的预测关键词特征信息和所述第三预测文本特征信息之间的余弦距离、所述第一编码器输出的预测关键词特征信息和所述第四预测文本特征信息之间的余弦距离,确定本次训练的第五子损失值;
[0033]基于所述第四子损失值、所述第五子损失值和所述第四子损失值、所述第五子损失值对应的预设权重,确定第二损失值。
[0034]在一种可能的实施方式中,在得到第三编码器之后,还包括:
[0035]获取用于重训的文本样本数据和用于重训的关键词样本数据;
[0036]将所述用于重训的文本样本数据输入所述第二编码器,并将所述用于重训的关键词样本数据输入所述第三编码器,分别得到第一重训文本特征信息和重训关键词特征信息;
[0037]将所述第一重训文本特征信息输入初始全连接层,得到第二重训文本特征信息;
[0038]基于所述第二重训文本特征信息和所述重训关键词特征信息,确定第三损失值;
[0039]基于所述第三损失值修改所述初始全连接层的参数,并对所述初始全连接层继续进行训练,直到所述第三损失值小于预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词与文本匹配方法,其特征在于,所述方法包括:获取用于检索的关键词;利用第三编码器提取所述关键词的特征信息;所述第三编码器基于第三初始编码器与第一编码器进行蒸馏训练的损失值、以及与第二编码器进行协同训练的损失值迭代训练得到;所述第一编码器用于提取关键词的特征信息,所述第二编码器用于提取文本的特征信息;所述第一编码器和所述第二编码器基于双塔模型框架训练得到;获取预设的多个候选文本的特征信息,所述候选文本的特征信息基于所述第二编码器预先提取得到;所述多个候选文本分别为多个候选多媒体资源的描述信息;根据所述关键词的特征信息和所述多个候选文本的特征信息,确定所述关键词与各个所述候选多媒体资源之间的匹配度;根据所述匹配度,从所述多个候选多媒体资源中确定与所述关键词匹配的目标多媒体资源。2.根据权利要求1所述的方法,其特征在于,在获取在线输入的关键词之前,还包括:获取样本数据,所述样本数据包括关键词样本数据、正文本样本数据和负文本样本数据,其中,所述正文本样本数据为与所述关键词样本数据的匹配度大于或等于第一阈值的文本样本数据,所述负文本样本数据为所述匹配度小于所述第一阈值的文本样本数据;将所述关键词样本数据输入第一初始编码器,并分别将与所述关键词样本数据对应的正文本样本数据和负文本样本数据输入第二初始编码器;获取所述第一初始编码器输出的预测关键词特征信息,并获取所述第二初始编码器输出的预测文本特征信息和所述预测文本特征信息的预测类别;所述预测文本特征信息包括根据所述正文本样本数据输出的第一预测文本特征信息和根据所述负文本样本数据输出的第二预测文本特征信息;基于所述预测关键词特征信息、所述第一预测文本特征信息、所述第二预测文本特征信息、所述预测类别,确定本次训练的第一损失值;基于所述第一损失值修改所述第一初始编码器和所述第二初始编码器的参数,并继续进行迭代训练,直到所述第一损失值小于预设的第一损失值阈值,得到第一编码器和第二编码器。3.根据权利要求2所述的方法,其特征在于,所述基于所述预测关键词特征信息、所述第一预测文本特征信息、所述第二预测文本特征信息、所述预测类别,确定本次训练的第一损失值,包括:基于所述预测关键词特征信息和所述第一预测文本特征信息之间的余弦距离、所述预测关键词特征信息和所述第二预测文本特征信息之间的余弦距离,确定本次训练的第一子损失值;基于所述预测文本特征信息与对应的预先标注的标准文本特征信息之间的均方误差,确定本次训练的第二子损失值;基于所述预测类别与预先标注的标准类别标签,确定第三子损失值;基于所述第一子损失值、所述第二子损失值、所述第三子损失值及所述第一子损失值、所述第二子损失值、所述第三子损失值对应的预设权重,确定本次训练的第一损失值。4.根据权利要求2所述的方法,其特征在于,在得到第一编码器和第二编码器之后,还
包括:将所述关键词样本数据分别输入所述第一编码器、第三初始编码器,将与所述关键词样本数据对应的正文本样本数据和负文本样本数据分别输入所述第二编码器;获取所述第一编码器输出的预测关键词特征信息和所述第三编码器输出的预测关键词特征信息;获取所述第二编码器根据所述正文本样本数据输出的第三预测文本特征信息和根据所述负文本样本数据输出的第四预测文本特征信息;基于所述第一编码器输出的预测关键词特征信息、所述第三...

【专利技术属性】
技术研发人员:何永明叶枫陈小帅
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1