本发明专利技术实施例提供了一种翻译模型的训练方法、装置及机器可读介质,其中,所述方法包括:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。通过本发明专利技术实施例提供的翻译模型的训练方案训练出的翻译模型,可以精准地对用户输入的口语化语音进行同声翻译,提高翻译模型的翻译性能。
A Training Method, Device and Machine Readable Media for Translation Model
【技术实现步骤摘要】
一种翻译模型的训练方法、装置以及机器可读介质
本专利技术涉及双语翻译
,特别是涉及一种翻译模型的训练方法、装置以及机器可读介质。
技术介绍
随着国际性交流的增加,使用不同语种的语种沟通越来越频繁。为克服语种交流障碍,基于客户端中安装翻译模型,通过翻译模型进行在线语音翻译即同声翻译得到广泛的应用。在线语音翻译一般涉及两个环节,第一是进行语音识别,即将用户输入的第一语种的语音信号转换为文本;第二是通过翻译模型对文本进行翻译,得到作为翻译结果的第二语种的文本,最后向用户提供第二语种文本或语言信息。翻译模型基于双语句对训练生成,用于训练翻译模型的双语句对均为正式的书面语即为标准文本,因此翻译模型仅能精准的对用户输入的标准文本对应的语音进行同声翻译。而在实际应用过程中,碍于用户的说话习惯用户输入的待翻译语音过于口语化,此时翻译模型将无法精准地对用户输入的语音进行同声翻译,影响翻译模型的翻译性能。
技术实现思路
本专利技术提供了一种翻译模型的训练方法、装置以及机器可读介质,可以精准地对用户输入的口语化语音进行同声传译,提高翻译模型的传译性能。为了解决上述问题,本专利技术公开了一种翻译模型的训练方法,其中,所述方法包括:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。为了解决上述问题,本专利技术还公开了一种翻译模型的训练装置,其中所述装置包括:转化模块,用于将第一语种的标准文本转化成第一语种的变形文本;训练模块,用于将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。为了解决上述问题,本专利技术又公开了一种用于翻译模型训练的装置,包括存储器,以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。为了解决上述问题,本专利技术还公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如本专利技术中所述的任意一种翻译模型的训练方法。与现有技术相比,本专利技术具有以下优点:本专利技术实施例提供的翻译模型的训练方法、装置以及机器可读介质,可以将用于训练模型的第一语种的标准文本转化成第一语种的变形文本;将第一语种的标准文本、第一语种的变形文本以及第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据对翻译模型进行训练。由于训练得到的翻译模型中存在变形文本与标准文本的对应关系,因此当用户输入口语化语音时识别到其对应的变形文本后,可进一步确定该变形文本对应的翻译文本或翻译文本的语音输出,故可以精准地对用户输入的口语化语音进行同声翻译,提高翻译模型的翻译性能。附图说明图1是根据本专利技术实施例一的一种翻译模型的训练方法的步骤流程图;图2是根据本专利技术实施例二的一种翻译模型的训练方法的步骤流程图;图3是根据本专利技术实施例三的一种翻译模型的训练装置的结构框图;图4是根据本专利技术实施例四的一种翻译模型的训练装置的结构框图;图5是根据本专利技术实施例五的一种用于翻译模型训练的装置的结构框图;以及图6是本专利技术实施例五中的服务器的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术实施例中将用于训练的第一语种的标准文本转换成第一语种的变形文本,基于第一语种的标准文本、第一语种的变形文本和第一语种的标准文本翻译得到的第二语种文本训练翻译模型,通过训练得到的翻译模型可确定用户输入的第一语种口语化语音对应的第一语种的标准文本,从而得到第一语种的标准文本对应的第二语种文本,输出第二语种文本或者第二语种文本对应的语音,从而实现对口语化语音的精准翻译。本专利技术实施例可以应用于语音翻译、同声翻译等任意的需要对语言是不结果进行在线翻译的场景中。第一语种和第二语种可用于表示不同的两种语言,上述第一语种和第二语种可由用户预置得到,也可以通过分析用户的历史行为得到。可选地,可以将用户最常用的语种作为第一语种,将除第一语种之外的其他语种确定为第二语种。例如:对于以中文(汉语)为母语的用户而言,第一语种可以为中文(汉语),第二语种可以为英文、日文、韩文、日文、德文、法文、少数民族语言种的一种或者组合。实施例一参照图1,示出了本专利技术实施例一的一种翻译模型的训练方法的步骤流程图。本专利技术实施例的翻译模型的训练方法包括以下步骤:步骤101:将第一语种的标准文本转化成第一语种的变形文本。在实际训练过程中,需要依据多组双语句对翻译模型进行训练,本专利技术实施例中以一组双语句对的训练为例进行说明。每组双语句对包括第一语种的标准文本以及该标准文本对应的第二语种文本,第二语种文本也为标准文本。所训练的翻译模型可以将第一语种的文本或语音翻译成第二语种的文本或语音。第一语种的变形文本为接近于口语的表达文本,我们可以通过对标准文本进行相应处理,使得转化后的文本更加接近于实际的口语表达方式。通常口语化的语音输入会存在如下几种问题:词语重复、存在冗余语气词、句子残缺或者词序颠倒等。为确保所训练出的翻译模型能够精准地对口语化语音进行同声翻译,则需要在翻译模型训练时引入与口语表达方式接近的变形文本。相应地,可以通过如下任意一种或多种方式结合将用于训练的第一语种的标准文本转化成第一语种的变形文本:将第一语种的标准文本中的分词以一定概率进行重复以适应口语化语音中词语重复的问题;在第一语种的标准文本中以一定概率插入预设插入词以适应口语化语音中存在冗余语气词的问题;将第一语种的标准文本中的分词以一定概率进行删除以适应口语化语音中句子残缺的问题;将第一语种的标准文本中的分词以一定概率进行位置替换以适应口语化语音中词序颠倒的问题。在具体实现过程中,本领域技术人员可以根据实际需求选择上述任意一种或多种方式的组合,将第一语种的标准文本转化成第一语种的变形文本。步骤102:将第一语种的标准文本、第一语种的变形文本以及第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据训练数据对翻译模型进行训练。在训练过程中,可以将第一语种的标准文本、第一语种的变形文本作为一个整体,与第二语种文本构成一个组双语句对,依据组成的双语句对对翻译模型进行训练。对于依据双语句对对模型进行训练的具体方式,参照现有相关技术即可,本专利技术实施例中对此不做具体限制。训练后的翻译模型中,存在第一语种的标准文本、第一语种的变形文本以及第一语种的标准文本对应的第二语种文本。因此,在具体应用过程中,若用户输入口语化的第一语种语音,翻译模型可对口语化的第一语种语音识别得到第一语种的变形文本,确定第一语种变形文本对应的第一语种的标准文本,从而得到第一语种的标准文本对应的第二语种文本,输出第二语种文本或者第二语种文本对应本文档来自技高网...
【技术保护点】
1.一种翻译模型的训练方法,其特征在于,包括:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。
【技术特征摘要】
1.一种翻译模型的训练方法,其特征在于,包括:将第一语种的标准文本转化成第一语种的变形文本;将所述第一语种的标准文本、所述第一语种的变形文本以及所述第一语种的标准文本对应的第二语种文本作为翻译模型的训练数据,并依据所述训练数据对所述翻译模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述将第一语种的标准文本转化成第一语种的变形文本的步骤,包括:将所述第一语种的标准文本中的一个或多个分词进行重复,得到第一语种的变形文本。3.根据权利要求2所述的方法,其特征在于,所述将所述第一语种的标准文本中的一个或多个分词进行重复,得到第一语种的变形文本的步骤,包括:将所述第一语种的标准文本进行分词处理;针对每个分词,生成第一随机概率值;依据预设的重复次数概率分布,确定所述第一随机概率值对应的重复次数,将所述分词重复所述重复次数次。4.根据权利要求1所述的方法,其特征在于,所述将第一语种的标准文本转化成第一语种的变形文本的步骤,包括:在所述第一语种的标准文本中的一个或者多个插入位置处,添加插入词得到第一语种的变形文本;其中,所述第一语种的标准文本的句首位置、句尾位置以及所述第一语种的标准文本中任意两分词间均为插入位置。5.根据权利要求4所述的方法,其特征在于,在所述第一语种的标准文本中的一个或者多个插入位置处,添加插入词得到第一语种的变形文本的步骤,包括:确定所述第一语种的标准文本中的各插入位置;针对每个插入位置,生成第二随机概率值;依据预设的插入次数概率分布,确定所述第二随机概率值对应的插入次数,从插入词列表中确定与所述插入位置匹配的所述插入次数的插入词,并插入确定的各所述插入词。6.根据权利要求1所述的方法,其特征在于,所述将第一语种的标准文本转化成第一语种的变形文本的步骤,包括:将所述第一语种的标准文本中的一个或多个分词删除,得到第一语种的变形文本。7.根据权利要求6所述的方法,其...
【专利技术属性】
技术研发人员:施亮亮,王宇光,姜里羊,阳家俊,李响,卫林钰,陈伟,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。