【技术实现步骤摘要】
一种语言模型训练方法、汉语拼音输入方法及装置
本申请涉及自然语言处理
,尤其涉及一种语言模型训练方法、汉语拼音输入方法及装置。
技术介绍
目前,实现整句输入是汉语拼音输入法的重要研究方向。现有技术中,汉语拼音输入法通常是在N-gram(N元语法)语言模型和拼音到字的概率表(也可以同时使用词拼音到词的概率表)的基础上,结合使用维特比算法(viterbialgorithm)、波束搜索算法(beamsearch)等来实现整句输入功能。但是现有技术的汉语拼音整句输入方法存在一些明显的缺陷,例如:拼音到字(词)的概率表中拼音到字(词)的概率得分权重,以及N-gram语言模型中句子概率的得分权重都需要人工调节,无法保证权重的全局最优;另外,常规N-gram语言模型是基于一阶马尔可夫链的概率语言模型,无法捕捉跨字(词)的概率关系,也无法捕捉更长距离的概率关系,影响从汉语拼音生成汉字句子的准确性;并且,现有技术的汉语拼音整句输入方法,主要针对用户当前输入的汉语拼音内容求解,无法利用用户连续输入的上下文信息,从而生成的汉字句子无法匹配上下文语境,准确度难以提升。可见,由于汉语拼音整句输入方法的上述缺陷,导致汉语拼音整句输入方法生成句子的准确性还有待提高。
技术实现思路
本申请实施例提供了一种语言模型训练方法、汉语拼音输入方法及装置,以解决现有技术中汉语拼音整句输入方法生成句子的准确性不高的问题。本申请所述语言模型指蕴含了从发音序列到汉字序列的概率信息和汉字序列自身的概率搭配信息的融合语言模型,仅针对汉字序列的模型为常规定义上的语言模型(languagemodel,LM)。 ...
【技术保护点】
1.一种语言模型训练方法,其特征在于,所述语言模型包括编码器和解码器,所述训练方法包括:获取训练数据,所述训练数据包括成对的拼音编码序列和汉字编码序列,所述拼音序列包含多个拼音编码,每个拼音编码对应一个汉语拼音音节,所述汉字编码序列包含多个汉字编码,每个汉字编码对应一个汉字;以拼音编码序列作为编码器的输入,以拼音编码序列的全局上下文特征和音节发音特征作为编码层的输出,以及,以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入,以汉字编码序列为解码器的目标输出,训练语言模型;其中,所述训练语言模型包括使用拼音编码序列中的拼音编码和汉字编码序列中的汉字编码对语言模型进行逐音和逐字的步进训练;所述前序汉字编码序列为当前汉字编码之前所有汉字编码组成的汉字编码序列。
【技术特征摘要】
1.一种语言模型训练方法,其特征在于,所述语言模型包括编码器和解码器,所述训练方法包括:获取训练数据,所述训练数据包括成对的拼音编码序列和汉字编码序列,所述拼音序列包含多个拼音编码,每个拼音编码对应一个汉语拼音音节,所述汉字编码序列包含多个汉字编码,每个汉字编码对应一个汉字;以拼音编码序列作为编码器的输入,以拼音编码序列的全局上下文特征和音节发音特征作为编码层的输出,以及,以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入,以汉字编码序列为解码器的目标输出,训练语言模型;其中,所述训练语言模型包括使用拼音编码序列中的拼音编码和汉字编码序列中的汉字编码对语言模型进行逐音和逐字的步进训练;所述前序汉字编码序列为当前汉字编码之前所有汉字编码组成的汉字编码序列。2.根据权利要求1所述的方法,其特征在于,所述以拼音编码序列作为编码器的输入,以拼音编码序列的全局上下文特征和音节发音特征作为编码层的输出,包括:对拼音编码序列进行词嵌入编码,生成每个音节对应的拼音特征向量;对于每个音节,以对应的拼音特征向量作为编码器的输入,所述编码器通过多层递归神经网络输出全局上下文特征向量和音节发音特征向量。3.根据权利要求2所述的方法,其特征在于,所述以编码器输出的全局上下文特征和音节发音特征以及前序汉字编码序列作为解码器的输入以汉字编码序列为解码器的目标输出,包括:获取每个音节的综合特征向量,所述综合特征向量由全局上下文特征向量与音节发音特征向量组合生成;对汉字编码序列进行词嵌入编码,生成每个汉字对应的汉字特征向量;对于每个音节,根据在拼音编码序列中对应的顺序,将音节的综合特征向量与音节对应的前一个汉字的汉字特征向量进行组合,得到音节的解码输入向量;对于每个音节,以对应的解码输入向量作为解码器的输入,训练解码器,输出对应的汉字特征预测向量,并使用所述汉字特征向量对所述汉字特征预测向量的输出进行监督,解码器由多层神经递归神经网络和全连接网络或卷积神经网络组成。4.根据权利要求3所述的方法,其特征在于,所述使用所述汉字特征向量对所述汉字特征预测向量的输出进行监督,包括:将汉字特征预测向量与汉字特征向量的交叉熵作为语言模型训练的监督信号;根据监督信号,采用梯度下降方法对训练过程进行迭代,以优化语言模型的神经网络参数。5.根据权利要求1所述的方法,其特征在于,所述拼音编码序列通过以下步骤生成:获取拼音字符串,所述拼音字符串包含多个音节,每个音节对应一个汉语发音;根据拼音编码词典将拼音字符串转换成拼音编码序列,所述拼音编码词典包含从音节到拼音编码的映射;所述汉字编码序列通过以下步骤生成:获取汉字字符串,所述汉字字符串包含多个汉字,所述汉字与拼音字符串的音节一一对应;根据汉字编码词典将汉字字符串转换成汉字编码序列...
【专利技术属性】
技术研发人员:汪磊,
申请(专利权)人:北京帝派智能科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。