数据标注方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39298727 阅读:7 留言:0更新日期:2023-11-07 11:07
本申请涉及一种数据标注方法、装置、计算机设备、存储介质和计算机程序产品。应用于人工智能领域,方法通过搜索召回模型对原始查询问句进行召回处理,得到原始查询问句中各标签词语的输出概率;将输出概率满足概率条件的标签词语所在的原始查询问句,确定为原始查询问句中的难样本;基于搜索召回模型所在的第一召回通路,获取难样本的第一类召回文档,并基于至少一个第二召回通路,获取难样本的第二类召回文档;对第一类召回文档和第二类召回文档进行混合推送,得到针对所推送召回文档的交互数据;基于交互数据从难样本中筛选目标样本,并根据原始查询问句中各标签词语的输出概率对目标样本进行数据标注处理。本申请可以有效提高模型迭代效率。高模型迭代效率。高模型迭代效率。

【技术实现步骤摘要】
数据标注方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种数据标注方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着计算机技术和人工智能技术的发展,出现了机器学习技术,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。目前可以通过主动学习的方法,借助标签数据来完成对机器学习模型的优化。
[0003]然而对于主动学习中的标签数据的标注,目前一般需要先将模型中难以区分的样本数据先提取出来,再进行人工标注,影响模型迭代效率。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够有效提高模型迭代效率的数据标注方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种数据标注方法。所述方法包括:
[0006]通过搜索召回模型对原始查询问句进行召回处理,得到所述原始查询问句中各标签词语的输出概率;
[0007]将所述输出概率满足概率条件的标签词语所在的原始查询问句,确定为所述原始查询问句中的难样本;
[0008]基于所述搜索召回模型所在的第一召回通路,获取所述难样本的第一类召回文档,并基于至少一个第二召回通路,获取所述难样本的第二类召回文档;
[0009]对所述第一类召回文档和所述第二类召回文档进行混合推送,得到针对所推送召回文档的交互数据;
[0010]基于所述交互数据从所述难样本中筛选目标样本,并根据所述原始查询问句中各标签词语的输出概率对所述目标样本进行数据标注处理。
[0011]第二方面,本申请还提供了一种数据标注装置。所述装置包括:
[0012]召回处理模块,用于通过搜索召回模型对原始查询问句进行召回处理,得到所述原始查询问句中各标签词语的输出概率;
[0013]难样本识别模块,用于将所述输出概率满足概率条件的标签词语所在的原始查询问句,确定为所述原始查询问句中的难样本;
[0014]文档查找模块,用于基于所述搜索召回模型所在的第一召回通路,获取所述难样本的第一类召回文档,并基于至少一个第二召回通路,获取所述难样本的第二类召回文档;
[0015]文档推送模块,用于对所述第一类召回文档和所述第二类召回文档进行混合推送,得到针对所推送召回文档的交互数据;
[0016]数据标注模块,用于基于所述交互数据从所述难样本中筛选目标样本,并根据所述原始查询问句中各标签词语的输出概率对所述目标样本进行数据标注处理。
[0017]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0018]通过搜索召回模型对原始查询问句进行召回处理,得到所述原始查询问句中各标签词语的输出概率;
[0019]将所述输出概率满足概率条件的标签词语所在的原始查询问句,确定为所述原始查询问句中的难样本;
[0020]基于所述搜索召回模型所在的第一召回通路,获取所述难样本的第一类召回文档,并基于至少一个第二召回通路,获取所述难样本的第二类召回文档;
[0021]对所述第一类召回文档和所述第二类召回文档进行混合推送,得到针对所推送召回文档的交互数据;
[0022]基于所述交互数据从所述难样本中筛选目标样本,并根据所述原始查询问句中各标签词语的输出概率对所述目标样本进行数据标注处理。
[0023]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0024]通过搜索召回模型对原始查询问句进行召回处理,得到所述原始查询问句中各标签词语的输出概率;
[0025]将所述输出概率满足概率条件的标签词语所在的原始查询问句,确定为所述原始查询问句中的难样本;
[0026]基于所述搜索召回模型所在的第一召回通路,获取所述难样本的第一类召回文档,并基于至少一个第二召回通路,获取所述难样本的第二类召回文档;
[0027]对所述第一类召回文档和所述第二类召回文档进行混合推送,得到针对所推送召回文档的交互数据;
[0028]基于所述交互数据从所述难样本中筛选目标样本,并根据所述原始查询问句中各标签词语的输出概率对所述目标样本进行数据标注处理。
[0029]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0030]通过搜索召回模型对原始查询问句进行召回处理,得到所述原始查询问句中各标签词语的输出概率;
[0031]将所述输出概率满足概率条件的标签词语所在的原始查询问句,确定为所述原始查询问句中的难样本;
[0032]基于所述搜索召回模型所在的第一召回通路,获取所述难样本的第一类召回文档,并基于至少一个第二召回通路,获取所述难样本的第二类召回文档;
[0033]对所述第一类召回文档和所述第二类召回文档进行混合推送,得到针对所推送召回文档的交互数据;
[0034]基于所述交互数据从所述难样本中筛选目标样本,并根据所述原始查询问句中各标签词语的输出概率对所述目标样本进行数据标注处理。
[0035]上述数据标注方法、装置、计算机设备、存储介质和计算机程序产品,先通过搜索
召回模型对原始查询问句进行召回处理,得到原始查询问句中各标签词语的输出概率,再将输出概率满足概率条件的标签词语所在的原始查询问句,确定为原始查询问句中的难样本;从而从原始查询问句识别出搜索召回模型难以召回的问句类型,而后基于搜索召回模型所在的第一召回通路,获取难样本的第一类召回文档,并基于至少一个第二召回通路,获取难样本的第二类召回文档;来得到完整的召回文档集合,并对第一类召回文档和第二类召回文档进行混合推送,得到针对所推送召回文档的交互数据;继而可以通过目标对象的主动操作行为数据,来从目标召回文档和各召回通路召回文档识别出目标对象想要的召回文档,即可基于文档操作数据从难样本中筛选目标样本,并根据原始查询问句中各标签词语的输出概率对目标样本进行数据标注处理。本申请通过在识别出难样本后,将不同通道的召回文档返回至目标对象,从而基于召回文档与目标对象间的交互,从难样本中自动筛选出目标样本来进行标注,而标注的目标样本则可以有效地实现对搜索召回模型的训练,从而有效提高模型迭代效率。
附图说明
[0036]图1为一个实施例中数据标注方法的应用环境图;
[0037]图2为一个实施例中数据标注方法的流程示意图;
[0038]图3为一个实施例中二分类模型的示意图;
[0039]图4为一个实施例中混合文档列表的曝光维度数据的示意图;
[0040本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,所述方法包括:通过搜索召回模型对原始查询问句进行召回处理,得到所述原始查询问句中各标签词语的输出概率;将所述输出概率满足概率条件的标签词语所在的原始查询问句,确定为所述原始查询问句中的难样本;基于所述搜索召回模型所在的第一召回通路,获取所述难样本的第一类召回文档,并基于至少一个第二召回通路,获取所述难样本的第二类召回文档;对所述第一类召回文档和所述第二类召回文档进行混合推送,得到针对所推送召回文档的交互数据;基于所述交互数据从所述难样本中筛选目标样本,并根据所述原始查询问句中各标签词语的输出概率对所述目标样本进行数据标注处理。2.根据权利要求1所述的方法,其特征在于,所述通过搜索召回模型对原始查询问句进行召回处理,得到所述原始查询问句中各标签词语的输出概率包括:对原始查询问句进行分词处理,得到问句分词结果;对所述问句分词结果进行过滤,得到原始查询问句中各标签词语;通过搜索召回模型对所述原始查询问句中各标签词语进行二分类处理,得到所述原始查询问句中各标签词语的输出概率。3.根据权利要求1所述的方法,其特征在于,所述将所述输出概率满足概率条件的标签词语所在的原始查询问句,确定为所述原始查询问句中的难样本包括:基于所述各标签词语的输出概率,通过置信度最小算法确定各标签词语的置信度;当存在标签词语的置信度落入难样本置信度区间时,确定所述原始查询问句为难样本。4.根据权利要求1所述的方法,其特征在于,所述将所述输出概率满足概率条件的标签词语所在的原始查询问句,确定为所述原始查询问句中的难样本包括:基于所述各标签词语的输出概率,通过边缘采样算法确定所述原始查询问句中的难样本。5.根据权利要求1所述的方法,其特征在于,所述基于所述搜索召回模型所在的第一召回通路,获取所述难样本的第一类召回文档包括:确定所述搜索召回模型针对所述难样本召回处理得到的标签词语;基于所述难样本中的标签词语进行倒排链路处理,得到各标签词语的召回文档集合;对所述各标签词语的召回文档集合进行求交集处理,得到所述难样本的第一类召回文档。6.根据权利要求1所述的方法,其特征在于,所述对所述第一类召回文档和所述第二类召回文档进行混合推送,得到针对所推送召回文档的交互数据包括:将所述第一类召回文档和所述第二类召回文档混合后进行去重处理和排序处理,构建混合文档列表;推送所述混合文档列表至所述原始查询问句的目标对象,得到目标对象针对所推送召回文档的交互数据。7.根据权利要求6所述的方法,其特征在于,所述将所述第一类召回文档和所述第二类
召回文档混合后进行去重处理和排序处理,构建混合文档列表包括:根据所述第一类召回文档和所述第二类召回文档构...

【专利技术属性】
技术研发人员:黄淼鑫黄泽谦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1