【技术实现步骤摘要】
对象关联模型的训练
技术介绍
[0001]在诸如语义解析、智能问答等的人机交互任务中,如何将人类的自然语言中的文本单元与机器所保存和识别的语义对象(例如,实体、处理操作等)进行关联是一项十分重要的环节。为保证快速准确地确定文本单元与语义对象的关联关系,通常可以训练相应的机器学习模型,称为对象关联模型。模型训练过程需要准备大量的训练数据集,然而,对数据集进行标注的工作需要耗费可观的人力成本,并且标注工作难度较大,故训练出的模型无法满足产品需求。因此,期望能够提供仅依赖少量人力成本的模型训练方案。
技术实现思路
[0002]根据本公开的实现,提出了一种用于训练对象关联模型的方案。在该方案中,获取目标语义对象和自然语言的文本序列,文本序列包括多个文本单元。确定目标语义对象在文本序列中被提及的第一置信度得分。确定在文本序列中除第一文本单元被忽略的情况下目标语义对象在文本序列中被提及的第二置信度得分;以及至少基于第一置信度得分与第二置信度得分之间的第一置信度差异、文本序列和目标语义对象来训练对象关联模型,对象关联模型被配置为确定目标语义对象是否与多个文本单元之一相关联。由此,可以显著减少标注训练数据集的成本和难度,并且提高标注准确度和效率。
[0003]提供
技术实现思路
部分是为了简化的形式来介绍对对象的选择,其在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
[0004]图1示出了能够实施本公开的多个实现的计算设备的框图; ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:获取目标语义对象和自然语言的第一文本序列,所述第一文本序列包括多个文本单元;确定所述目标语义对象在所述第一文本序列中被提及的第一置信度得分;确定在所述第一文本序列中的第一文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第二置信度得分;以及至少基于所述第一置信度得分与所述第二置信度得分之间的第一置信度差异、所述第一文本序列和所述目标语义对象来训练对象关联模型,所述对象关联模型被配置为确定所述目标语义对象是否与所述多个文本单元之一相关联。2.根据权利要求1所述的方法,其中利用已训练的对象预测模型来分别确定所述第一置信度得分和所述第二置信度得分,所述方法还包括:获取针对所述对象预测模型的训练数据,所述训练数据包括第二文本序列、语义对象以及针对所述语义对象的监督信息,针对所述语义对象的所述监督信息指示所述语义对象在所述第二文本序列中是否被提及;以及基于所述训练数据来训练所述对象预测模型。3.根据权利要求1所述的方法,其中训练所述对象关联模型包括:基于所述第一置信度差异,确定针对所述第一文本单元的第一关联得分,所述第一关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第一文本单元的第二关联得分,所述第二关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;基于所述第一关联得分和所述第二关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第一关联得分和所述第二关联得分的组合得分的增加;以及基于所述训练目标函数来更新所述对象关联模型的参数值。4.根据权利要求3所述的方法,其中确定所述第一关联得分包括:获取针对所述目标语义对象的所述监督信息,针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中是否被提及;如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中被提及,基于所述第一置信度差异来计算所述第一关联得分;以及如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中未被提及,确定所述第一关联得分以指示所述目标语义对象与所述第一文本单元不相关联。5.根据权利要求1所述的方法,其中训练所述对象关联模型包括:确定在所述第一文本序列中的第二文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第三置信度得分;以及还基于所述第一置信度得分与所述第三置信度得分之间的第二置信度差异来训练所述对象关联模型。6.根据权利要求5所述的方法,其中还基于所述第二置信度差异来训练所述对象关联
模型包括:基于所述第二置信度差异,确定针对所述第二文本单元的第三关联得分,所述第三关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第二文本单元的第四关联得分,所述第四关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;基于所述第三关联得分和所述第四关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第三关联得分和所述第四关联得分的组合得分的增加;以及基于所述训练目标函数来更新所述对象关联模型的参数值。7.根据权利要求1所述的方法,其中确定所述第二置信度得分包括:将所述第一文本单元替换为预定文本符号;以及基于将所述多个文本单元除所述第一文本单元之外的其他文本单元、所述预定文本符号和所述目标语义对象来确定所述第二置信度得分。8.根据权利要求1所述的方法,其中确定所述第一置信度得分包括:利用预训练语言模型(PLM)来提取所述多个文本单元的多个文本特征表示和所述目标语义对象的第一对象特征表示,所述PLM被包括在所述对象关联模型中;以及基于所述第一对象特征表示来确定所述第一置信度得分,并且其中确定所述第二置信度得分包括:利用所述PLM来提取所述多个文本单元中除所述第一文本单元之外的其他文本单元的文本特征表示和所述目标语义对象的第二对象特征表示;以及基于所述第二对象特征表示来确定所述第二置信度得分。9.一种电子设备,包括:处理器;以及存储器,耦合至所述处理器并且包含存储于其上的指令,所述指令在由所述处理器执行时使所述设备执行以下动作,所述动作包括:获取目标语义对象和自然语言的文本序列,所述第一文本序列包括多个文本单元;确定所述目标语义对象在所述第一文本序列中被提及的第一置信度得分;确定在所述第一文本序列中的第一文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第二置信度得分;以及至少基于所述第一置信度得分与所述第二置信度得分之间的第一置信度差异、所述第一文本序列和所述目标语义对象来训练对象关联模型,所述对象关联模型被配置为确定所述目标语义对象是否与所述多个文本单元之一相关联。10.根据权利要求9所述的设备,其中利用已训练的对象预测模型来分别确定所述第一置信度得分和所述第二置信度得分,所述动作还包括:获取针对所述对象预测模型的训练数据,所述训练数据包括第二文本序列、语义对象以及针对所述语义对象的监督信息,针对所述语义对象的所述监督信息指示所述语义对象在所述第二文本序列中是否被提及;以及基于所述训练数据来训练所述对象预测模型。
11.根据权利要求9所述的设备,其中训练所述对象关联模型包括:基于所述第一置信度差异,确定针对所述第一文本单元的第一关联得分,所述第一关联得分指...
【专利技术属性】
技术研发人员:杨德剑,楼建光,张冬梅,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。