一种语言模型训练方法、汉语拼音输入方法及装置制造方法及图纸

技术编号:21088685 阅读:170 留言:0更新日期:2019-05-11 09:39
本申请实施例提供了一种语言模型训练方法及装置,该语言模型包括编码器和解码器。该方法包括:获取训练数据,训练数据包括成对的拼音编码序列和汉字编码序列,拼音序列包含多个拼音编码,每个拼音编码对应一个音节,汉字编码序列包含多个汉字编码,每个汉字编码对应一个汉字;以拼音编码序列作为编码器的输入,输出拼音编码序列的全局上下文特征和音节发音特征;以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入,以汉字编码序列为解码器的目标输出,训练语言模型。从而,将该语言模型应用到输入法中,能够使输入法具备准确的整句输入能力,从而解决了现有技术的汉语拼音输入方法整句输入准确性差的问题。

A Language Model Training Method, Chinese Pinyin Input Method and Device

【技术实现步骤摘要】
一种语言模型训练方法、汉语拼音输入方法及装置
本申请涉及自然语言处理
,尤其涉及一种语言模型训练方法、汉语拼音输入方法及装置。
技术介绍
目前,实现整句输入是汉语拼音输入法的重要研究方向。现有技术中,汉语拼音输入法通常是在N-gram(N元语法)语言模型和拼音到字的概率表(也可以同时使用词拼音到词的概率表)的基础上,结合使用维特比算法(viterbialgorithm)、波束搜索算法(beamsearch)等来实现整句输入功能。但是现有技术的汉语拼音整句输入方法存在一些明显的缺陷,例如:拼音到字(词)的概率表中拼音到字(词)的概率得分权重,以及N-gram语言模型中句子概率的得分权重都需要人工调节,无法保证权重的全局最优;另外,常规N-gram语言模型是基于一阶马尔可夫链的概率语言模型,无法捕捉跨字(词)的概率关系,也无法捕捉更长距离的概率关系,影响从汉语拼音生成汉字句子的准确性;并且,现有技术的汉语拼音整句输入方法,主要针对用户当前输入的汉语拼音内容求解,无法利用用户连续输入的上下文信息,从而生成的汉字句子无法匹配上下文语境,准确度难以提升。可见,由于汉语拼音整句输入方法的上述缺陷,导致汉语拼音整句输入方法生成句子的准确性还有待提高。
技术实现思路
本申请实施例提供了一种语言模型训练方法、汉语拼音输入方法及装置,以解决现有技术中汉语拼音整句输入方法生成句子的准确性不高的问题。本申请所述语言模型指蕴含了从发音序列到汉字序列的概率信息和汉字序列自身的概率搭配信息的融合语言模型,仅针对汉字序列的模型为常规定义上的语言模型(languagemodel,LM)。第一方面,本申请实施例提供了一种语言模型训练方法,其中,该语言模型包括编码器(Encoder)和解码器(Decoder)两个主要部分,该方法包括:获取训练数据,所述训练数据包括成对的拼音编码序列和汉字编码序列,所述拼音序列包含多个拼音编码,每个拼音编码对应一个汉语拼音音节,所述汉字编码序列包含多个汉字编码,每个汉字编码对应一个汉字;以拼音编码序列作为编码器的输入,以拼音编码序列的全局上下文特征和音节发音特征作为编码层的输出,以及,以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入,以汉字编码序列为解码器的目标输出,训练语言模型;其中,所述训练语言模型包括使用拼音编码序列中的拼音编码和汉字编码序列中的汉字编码对语言模型进行逐音和逐字的步进训练;所述前序汉字编码序列为当前汉字编码之前所有汉字编码组成的汉字编码序列。第二方面,本申请实施例提供了一种语言模型训练装置,其中,该语言模型包括编码器和解码器,该装置包括:训练准备模块,用于获取训练数据,所述训练数据包括成对的拼音编码序列和汉字编码序列,所述拼音序列包含多个拼音编码,每个拼音编码对应一个汉语拼音音节,所述汉字编码序列包含多个汉字编码,每个汉字编码对应一个汉字;训练模块,以拼音编码序列作为编码器的输入,以拼音编码序列的全局上下文特征和音节发音特征作为编码层的输出,以及,以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入,以汉字编码序列为解码器的目标输出,训练语言模型;其中,所述训练语言模型包括使用拼音编码序列中的拼音编码和汉字编码序列中的汉字编码对语言模型进行逐音和逐字的步进训练;所述前序汉字编码序列为当前汉字编码之前所有汉字编码组成的汉字编码序列。由以上技术方案可知,本申请实施例提供了一种语言模型训练方法及装置,该语言模型包括编码器和解码器。该方法包括:获取训练数据,所述训练数据包括成对的拼音编码序列和汉字编码序列,所述拼音序列包含多个拼音编码,每个拼音编码对应一个音节,所述汉字编码序列包含多个汉字编码,每个汉字编码对应一个汉字;以拼音编码序列作为编码器的输入,以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入,以汉字编码序列为解码器的目标输出,训练语言模型。由此,语言模型能够在训练时从训练数据中精准学习到每个汉字和对应拼音音节的上下文特征和音节发音特征,使语言模型具备根据长段拼音字符串准确输出汉字字符串的能力。那么,如果将该语言模型应用到输入法中,就能够使输入法具备准确的整句输入能力,从而解决了现有技术的汉语拼音输入方法整句输入准确性差的问题。第三方面,本申请实施例提供了一种汉语拼音输入方法,该方法应用于权利要求1-5任一项训练的语言模型,包括以下步骤:获取拼音字符串,所述拼音字符串包含多个音节,每个音节对应一种汉字发音;根据预设的拼音编码字典将拼音字符串的音节进行编码,生成拼音编码序列;根据拼音编码序列,在语言模型的编码器获取每个音节的全局上下文特征和音节发音特征;根据全局上下文特征和音节发音特征,在语言模型的解码器顺序预测每个音节对应的汉字编码,进而通过汉字编码表反查获得汉字字符串。第四方面,本申请实施例提供了一种汉语拼音输入装置,该装置应用于权利要求1-5任一项训练的语言模型,包括:获取模块,用于获取拼音字符串,所述拼音字符串包含多个音节,每个音节对应一个汉语发音;编码模块,用于根据预设的拼音编码字典将拼音字符串的音节进行编码,生成拼音编码序列;编码器模块,用于根据拼音编码序列,在语言模型的编码器获取每个音节的全局上下文特征和音节发音特征;解码器模块,用于根据全局上下文特征和音节发音特征,在语言模型的解码器顺序预测每个音节对应的汉字,并输出汉字字符串。由以上技术方案可知,本申请实施例提供了一种汉语拼音输入方法及装置,该方法和装置应用于本申请实施例训练的语言模型,能够获取拼音字符串,所述拼音字符串包含多个音节,每个音节对应一个汉语发音;根据预设的拼音编码字典将拼音字符串的音节进行编码,生成拼音编码序列;根据拼音编码序列,在语言模型的编码器获取每个音节的全局上下文特征和音节发音特征;根据全局上下文特征和音节发音特征以及前序汉字编码序列,在语言模型的解码器顺序预测每个音节对应的汉字,并输出汉字字符串。由于语言模型在训练时从训练数据中精准学习到每个汉字和对应拼音音节的上下文特征和音节发音特征,使语言模型具备根据长段拼音字符串准确输出汉字字符串的能力,从而应用了该语言模型的输入法具备准确的整句输入能力,从而解决了现有技术的汉语拼音输入方法整句输入准确性差的问题。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种语言模型训练方法的流程图;图2为本申请实施例提供的实现语言模型的编码层输入和输出的流程图;图3为本申请实施例提供的实现语言模型的解码层输入和输出的流程图;图4为本申请实施例提供的一种语言模型训练的监督流程图;图5为本申请实施例提供的一种汉语拼音输入方法的流程图;图6为本申请实施例提供的一种语言模型训练方法步骤S240的流程图;图7为本申请实施例提供的一种语言模型训练装置的结构示意图;图8为本申请实施例提供的一种汉语拼音输入装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,本文档来自技高网
...

【技术保护点】
1.一种语言模型训练方法,其特征在于,所述语言模型包括编码器和解码器,所述训练方法包括:获取训练数据,所述训练数据包括成对的拼音编码序列和汉字编码序列,所述拼音序列包含多个拼音编码,每个拼音编码对应一个汉语拼音音节,所述汉字编码序列包含多个汉字编码,每个汉字编码对应一个汉字;以拼音编码序列作为编码器的输入,以拼音编码序列的全局上下文特征和音节发音特征作为编码层的输出,以及,以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入,以汉字编码序列为解码器的目标输出,训练语言模型;其中,所述训练语言模型包括使用拼音编码序列中的拼音编码和汉字编码序列中的汉字编码对语言模型进行逐音和逐字的步进训练;所述前序汉字编码序列为当前汉字编码之前所有汉字编码组成的汉字编码序列。

【技术特征摘要】
1.一种语言模型训练方法,其特征在于,所述语言模型包括编码器和解码器,所述训练方法包括:获取训练数据,所述训练数据包括成对的拼音编码序列和汉字编码序列,所述拼音序列包含多个拼音编码,每个拼音编码对应一个汉语拼音音节,所述汉字编码序列包含多个汉字编码,每个汉字编码对应一个汉字;以拼音编码序列作为编码器的输入,以拼音编码序列的全局上下文特征和音节发音特征作为编码层的输出,以及,以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入,以汉字编码序列为解码器的目标输出,训练语言模型;其中,所述训练语言模型包括使用拼音编码序列中的拼音编码和汉字编码序列中的汉字编码对语言模型进行逐音和逐字的步进训练;所述前序汉字编码序列为当前汉字编码之前所有汉字编码组成的汉字编码序列。2.根据权利要求1所述的方法,其特征在于,所述以拼音编码序列作为编码器的输入,以拼音编码序列的全局上下文特征和音节发音特征作为编码层的输出,包括:对拼音编码序列进行词嵌入编码,生成每个音节对应的拼音特征向量;对于每个音节,以对应的拼音特征向量作为编码器的输入,所述编码器通过多层递归神经网络输出全局上下文特征向量和音节发音特征向量。3.根据权利要求2所述的方法,其特征在于,所述以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入以汉字编码序列为解码器的目标输出,包括:获取每个音节的综合特征向量,所述综合特征向量由全局上下文特征向量与音节发音特征向量组合生成;对汉字编码序列进行词嵌入编码,生成每个汉字对应的汉字特征向量;对于每个音节,根据在拼音编码序列中对应的顺序,将音节的综合特征向量与音节对应的前一个汉字的汉字特征向量进行组合,得到音节的解码输入向量;对于每个音节,以对应的解码输入向量作为解码器的输入,训练解码器,输出对应的汉字特征预测向量,并使用所述汉字特征向量对所述汉字特征预测向量的输出进行监督,解码器由多层神经递归神经网络和全连接网络或卷积神经网络组成。4.根据权利要求3所述的方法,其特征在于,所述使用所述汉字特征向量对所述汉字特征预测向量的输出进行监督,包括:将汉字特征预测向量与汉字特征向量的交叉熵作为语言模型训练的监督信号;根据监督信号,采用梯度下降方法对训练过程进行迭代,以优化语言模型的神经网络参数。5.根据权利要求1所述的方法,其特征在于,所述拼音编码序列通过以下步骤生成:获取拼音字符串,所述拼音字符串包含多个音节,每个音节对应一个汉语发音;根据拼音编码词典将拼音字符串转换成拼音编码序列,所述拼音编码词典包含从音节到拼音编码的映射;所述汉字编码序列通过以下步骤生成:获取汉字字符串,所述汉字字符串包含多个汉字,所述汉字与拼音字符串的音节一一对应;根据汉字编码词典将汉字字符串转换成汉字编码序列...

【专利技术属性】
技术研发人员:汪磊
申请(专利权)人:北京帝派智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1