一种面向跨语言对话理解的模型预训练系统技术方案

技术编号:29835645 阅读:14 留言:0更新日期:2021-08-27 14:25
一种面向跨语言对话理解的模型预训练系统,本发明专利技术涉及面向跨语言对话理解的模型预训练系统。本发明专利技术的目的是为了解决现有跨语言对话理解场景下由于小语种语料稀缺而导致模型训练效果有限,无法获得准确的对话理解系统,对用户话语无法完成准确的回复的问题。一种面向跨语言对话理解的模型预训练系统包括:数据采集模块、对话领域标签整理合并模块、训练语料整理模块、目标语种确定模块、静态词典确定模块、单词替换模块、编码模块、单词替换预测模块、样本所属对话领域预测模块、整体模型获取模块、训练模块和跨语言对话理解领域下游任务精调模块。本发明专利技术用于跨语言对话理解领域。

【技术实现步骤摘要】
一种面向跨语言对话理解的模型预训练系统
本专利技术涉及面向跨语言对话理解的模型预训练系统,涉及自然语言处理领域下的跨语言模型预训练系统,涉及自然语言处理领域下的对话理解模型训练系统。
技术介绍
当前,人机对话系统由于其巨大的使用价值和前景,成为了业界前沿的研究热点。其实早在上世纪60年代,麻省理工大学的JosephWeizenbaum教授就已经开始研发人机对话系统Eliza(WeizenbaumJ.ELIZA—acomputerprogramforthestudyofnaturallanguagecommunicationbetweenmanandmachine[J].CommunicationsoftheACM,1966,9(1):36-45.),该系统能够模拟精神治疗专家的答复,为心理疾病患者提供辅助治疗。在这之后的若干年中,由于自然语言处理(ChowdhuryGG.Naturallanguageprocessing[J].Annualreviewofinformationscienceandtechnology,2003,37(1):51-89.)与深度学习(LeCunY,BengioY,HintonG.Deeplearning[J].nature,2015,521(7553):436-444.)技术的迅猛发展,各种用途的人机对话系统也层出不穷。这些人机对话系统背后最主要的模块便是对话理解系统。对话理解系统能够理解用户的意图,并给出相对应的回复和帮助,比如查询天气、定航班、订餐、智能家居的设备控制、车载设备的语音控制等等。目前,业界已有不少应用于手机或智能家居设备上的对话理解系统,但绝大多数只适配了中文、英文这类适用面较广的语种。同样的,在学术界研究人员对对话理解系统模型的预训练(WuCS,HoiS,SocherR,etal.Tod-bert:Pre-trainednaturallanguageunderstandingfortask-orienteddialogues[J].arXivpreprintarXiv:2004.06871,2020.)也只局限在英文当中,在跨语言场景上却鲜有研究。造成这一现状的很重要的原因是由于在小语种上有标注的对话理解领域内语料数量非常稀缺,如何有效利用现有对话理解语料去辅助跨语言场景上的训练是目前亟需解决的问题。
技术实现思路
本专利技术的目的是为了解决现有跨语言对话理解场景下由于小语种语料稀缺而导致模型训练效果有限,无法获得准确的对话理解系统,对用户话语无法完成准确的回复的问题,而提出一种面向跨语言对话理解的模型预训练系统。一种面向跨语言对话理解的模型预训练系统包括:数据采集模块、对话领域标签整理合并模块、训练语料整理模块、目标语种确定模块、静态词典确定模块、单词替换模块、编码模块、单词替换预测模块、样本所属对话领域预测模块、整体模型获取模块、训练模块和跨语言对话理解领域下游任务精调模块;数据采集模块用于收集有标注的对话理解领域内的英文数据集;对话领域标签整理合并模块用于整理数据采集模块中所有数据集上有标注的对话领域标签,对不同数据集上具有相同意义的对话领域标签进行合并;训练语料整理模块用于对数据采集模块收集的所有数据集中的对话语料进行分割,将一轮对话中的用户话语与系统回复作为一条样本,对用户话语与系统回复分别进行分词,同时利用对话领域标签整理合并模块中合并后的对话领域标签信息对每条样本标注对话领域标签;目标语种确定模块用于确定目标语种;静态词典确定模块用于根据目标语种确定模块确定的目标语种,分别收集由英文词汇翻译到各目标语种上的静态词典;单词替换模块用于在训练语料整理模块中标注对话领域标签后的每一条样本上随机选取一定比例的英文单词,并对每一个随机选取到的单词,从目标语种确定模块中确定的目标语种中随机选取一门语言,利用静态词典确定模块收集到的静态词典将每一个随机选取到的单词翻译到目标语种对应的单词,将该英文单词替换成目标语种对应的单词,同时保留原始的英文单词作为待预测标签;编码模块使用跨语言编码模型获得单词替换模块中处理好的样本的编码表示;单词替换预测模块使用全连接神经网络,由编码模块得到的样本中每个词的编码表示计算词典中可能被替换的单词的概率,并通过单词替换模块中的待预测标签计算交叉熵损失;样本所属对话领域预测模块使用全连接神经网络,由编码模块得到的样本整个句子的编码表示判断该样本所属的对话领域,并通过训练语料整理模块中标注的对话领域标签计算交叉熵损失;整体模型获取模块将单词替换预测模块得到的交叉熵损失和样本所属对话领域预测模块得到的交叉熵损失相加,得到最终损失;通过最终损失,在整体模型上进行反向传播并更新整体模型参数;所述整体模型获取模块中的整体模型为编码模块中的跨语言编码模型,单词替换预测模块中的全连接神经网络和样本所属对话领域预测模块中的全连接神经网络的整体;训练模块使用训练语料整理模块、单词替换模块中处理好的数据训练整体模型获取模块中的整体模型;跨语言对话理解领域下游任务精调模块使用训练模块训练好的整体模型作为预训练模型,基于预训练模型完成跨语言对话理解领域内的任务。本专利技术的有益效果为:本专利技术提出了一种面向跨语言对话理解的模型预训练系统,该系统不依赖跨语言的有标注对话理解数据,仅需利用现有的英文上的数据,便可进行跨语言场景下对话理解模型的预训练。此外,本专利技术设计了一种自监督的任务,利用词典自动地进行标注,让模型在预训练的过程中能够学习到英文词汇和其他语种互为翻译对的词汇之间的映射关系,从而在预训练模型上提高其他语种与英文之间的整体表示。特别地,本专利技术还汇总了不同英文对话理解数据集中的对话领域标签,并利用该标注信息对模型进行训练,让模型在预训练过程中也能学习到对话理解领域特有的知识。解决了现有跨语言对话理解场景下由于小语种语料稀缺而导致模型训练效果有限,无法获得准确的对话理解系统,对用户话语无法完成准确的回复的问题。本专利技术在阿拉伯语、德语、西班牙语、法语、意大利语、马来西亚语、波兰语、俄罗斯语、泰语、土耳其语十个小语种上的对话语言理解任务数据集上进行了评估,该任务囊括了对话理解领域最经典的两个子任务:意图识别和槽位提取。实验结果表明,利用本专利技术进行预训练的模型,在下游任务的训练时,可以取得比基线模型更优的结果。本专利技术在上述十个小语种上的对话语言理解数据集各用五个随机种子进行训练,以五个随机种子下的平均结果作为当前结果,并以十个小语种上的平均结果进行比较。利用本专利技术方法进行预训练的模型,意图识别准确率达到93.73%,比基线模型提高了4.17%,槽位提取F1值达到66.80%,比基线模型提高了3.03%,意图和槽位预测整体的准确率达到38.01%,比基线模型提高了3.6%。在各个指标上都有很大程度的提升,这也表明本专利技术提出的系统对跨语言对话理解模型的预训练是十分有效的。附图说明图1为多个对话理解数据集本文档来自技高网
...

【技术保护点】
1.一种面向跨语言对话理解的模型预训练系统,其特征在于:所述系统包括:/n数据采集模块、对话领域标签整理合并模块、训练语料整理模块、目标语种确定模块、静态词典确定模块、单词替换模块、编码模块、单词替换预测模块、样本所属对话领域预测模块、整体模型获取模块、训练模块和跨语言对话理解领域下游任务精调模块;/n数据采集模块用于收集有标注的对话理解领域内的英文数据集;/n对话领域标签整理合并模块用于整理数据采集模块中所有数据集上有标注的对话领域标签,对不同数据集上具有相同意义的对话领域标签进行合并;/n训练语料整理模块用于对数据采集模块收集的所有数据集中的对话语料进行分割,将一轮对话中的用户话语与系统回复作为一条样本,对用户话语与系统回复分别进行分词,同时利用对话领域标签整理合并模块中合并后的对话领域标签信息对每条样本标注对话领域标签;/n目标语种确定模块用于确定目标语种;/n静态词典确定模块用于根据目标语种确定模块确定的目标语种,分别收集由英文词汇翻译到各目标语种上的静态词典;/n单词替换模块用于在训练语料整理模块中标注对话领域标签后的每一条样本上随机选取一定比例的英文单词,并对每一个随机选取到的单词,从目标语种确定模块中确定的目标语种中随机选取一门语言,利用静态词典确定模块收集到的静态词典将每一个随机选取到的单词翻译到目标语种对应的单词,将该英文单词替换成目标语种对应的单词,同时保留原始的英文单词作为待预测标签;/n编码模块使用跨语言编码模型获得单词替换模块中处理好的样本的编码表示;/n单词替换预测模块使用全连接神经网络,由编码模块得到的样本中每个词的编码表示计算词典中可能被替换的单词的概率,并通过单词替换模块中的待预测标签计算交叉熵损失;/n样本所属对话领域预测模块使用全连接神经网络,由编码模块得到的样本整个句子的编码表示判断该样本所属的对话领域,并通过训练语料整理模块中标注的对话领域标签计算交叉熵损失;/n整体模型获取模块将单词替换预测模块得到的交叉熵损失和样本所属对话领域预测模块得到的交叉熵损失相加,得到最终损失;/n通过最终损失,在整体模型上进行反向传播并更新整体模型参数;/n所述整体模型获取模块中的整体模型为编码模块中的跨语言编码模型,单词替换预测模块中的全连接神经网络和样本所属对话领域预测模块中的全连接神经网络的整体;/n训练模块使用训练语料整理模块、单词替换模块中处理好的数据训练整体模型获取模块中的整体模型;/n跨语言对话理解领域下游任务精调模块使用训练模块训练好的整体模型作为预训练模型,基于预训练模型完成跨语言对话理解领域内的任务。/n...

【技术特征摘要】
1.一种面向跨语言对话理解的模型预训练系统,其特征在于:所述系统包括:
数据采集模块、对话领域标签整理合并模块、训练语料整理模块、目标语种确定模块、静态词典确定模块、单词替换模块、编码模块、单词替换预测模块、样本所属对话领域预测模块、整体模型获取模块、训练模块和跨语言对话理解领域下游任务精调模块;
数据采集模块用于收集有标注的对话理解领域内的英文数据集;
对话领域标签整理合并模块用于整理数据采集模块中所有数据集上有标注的对话领域标签,对不同数据集上具有相同意义的对话领域标签进行合并;
训练语料整理模块用于对数据采集模块收集的所有数据集中的对话语料进行分割,将一轮对话中的用户话语与系统回复作为一条样本,对用户话语与系统回复分别进行分词,同时利用对话领域标签整理合并模块中合并后的对话领域标签信息对每条样本标注对话领域标签;
目标语种确定模块用于确定目标语种;
静态词典确定模块用于根据目标语种确定模块确定的目标语种,分别收集由英文词汇翻译到各目标语种上的静态词典;
单词替换模块用于在训练语料整理模块中标注对话领域标签后的每一条样本上随机选取一定比例的英文单词,并对每一个随机选取到的单词,从目标语种确定模块中确定的目标语种中随机选取一门语言,利用静态词典确定模块收集到的静态词典将每一个随机选取到的单词翻译到目标语种对应的单词,将该英文单词替换成目标语种对应的单词,同时保留原始的英文单词作为待预测标签;
编码模块使用跨语言编码模型获得单词替换模块中处理好的样本的编码表示;
单词替换预测模块使用全连接神经网络,由编码模块得到的样本中每个词的编码表示计算词典中可能被替换的单词的概率,并通过单词替换模块中的待预测标签计算交叉熵损失;
样本所属对话领域预测模块使用全连接神经网络,由编码模块得到的样本整个句子的编码表示判断该样本所属的对话领域,并通过训练语料整理模块中标注的对话领域标签计算交叉熵损失;
整体模型获取模块将单词替换预测模块得到的交叉熵损失和样本所属对话领域预测模块得到的交叉熵损失相加,得到最终损失;
通过最终损失,在整体模型上进行反向传播并更新整体模型参数;
所述整体模型获取模块中的整体模型为编码模块中的跨语言编码模型,单词替换预测模块中的全连接神经网络和样本所属对话领域预测模块中的全连接神经网络的整体;
训练模块使用训练语料整理模块、单词替换模块中处理好的数据训练整体模型获取模块中的整体模型;
跨语言对话理解领域下游任务精调模块使用训练模块训练好的整体模型作为预训练模型,基于预训练模型完成跨语言对话理解领域内的任务。


2.根据权利要求1所述一种面向跨语言对话理解的模型预训练系统,其特征在于:所述对话领域标签整理合并模块用于整理数据采集模块中所有数据集上有标注的对话领域标签,对不同数据集上具有相同意义的对话领域标签进行合并;具体过程为:
步骤二一、整理数据采集模块中所有数据集上有标注的对话领域标签;
步骤二二、对不同数据集上具有相同意义的对话领域标签通过人工筛选归类为同一类别。


3.根据权利要求2所述一种面向跨语言对话理解的模型预训练系统,其特征在于:所述训练语料整理模块用于对数据采集模块收集的所有数据集中的对话语料进行分割,将一轮对话中的用户话语与系统回复作为一条样本,对用户话语与系统回复分别进行分词,同时利用步骤二中合并后的对话领域标签信息对每条样本标注对话领域标签;具体过程为:
步骤三一、数据采集模块中收集的数据集中上的对话理解语料均为多轮对话,每一段对话可以表示为D={U1,R1,...,UN,RN};
其中N表示对话轮数,U1和R1分别表示第1轮对话的用户话语和系统回复,UN和RN分别表示第N轮对话的用户话语和系统回复;
将一轮对话中的用户话语与系统回复作为一条样本,对用户话语与系统回复分别进行分词,在用户话语与系统回复之间插入分隔符[SEP],并在句首插入标识符[CLS]用来表示全局信息,从而得到样本S={[CLS],u1,u2,...,ui,[SEP],r1,r2,...,rj};
其中u1和r1分别表示用户话语与系统回复中的第1个词,u2和r2分别表示用户话语与系统回复中的第2个词,ui表示用户话语中的第i个词,rj表示系统回复中的第j个词,i表示对用户话语分词后的长度;j表示对系统回复分词后的长度;
步骤三二、利用对话领域标签整理合并模块中合并后的对话领域标签信息对每条样本标注对话领域标签,标注对话领域标签后的每一条样本表示为:
S={Stokens=[CLS],u1,u2,…,ui,[SEP],r1,r2,…,rj;Sdomain=d},
其中d为该样本所对应的对话领域标签,Stokens为每条样本中处理好的输入字符token的序列,Sdomain为每条样本的对话领域标签。


4.根据权利要求3所述一种面向跨语言对话理解的模型预训练系统,其特征在于:所述静态词典确定模块用于根据目标语种确定模块确定的目标语种,分别收集由英文词汇翻译到各目标语种上的静态词典;具体过程为:
通过网址https://github...

【专利技术属性】
技术研发人员:车万翔李祺欣覃立波刘挺
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1