一种语言模型建模方法及设备技术

技术编号：40442232 阅读：13 留言：0更新日期：2024-02-22 23:04

本发明专利技术涉及一种语言模型建模方法及设备；该方法包括：构建初级语言模型，初级语言模型包括共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块，用于分别对输入的文本序列进行特征提取，得到文本序列对应的两个特征向量，以学习文本序列中词序列组合规律；获取多个文本数据，构建样本数据集；利用样本数据集对初级语言模型进行训练，经过损失函数迭代更新及参数微调，得到语言模型；语言模型用于基于学习得到的词序列组合规律，预测句子中特定词序列出现的概率。本发明专利技术解决了现有技术中建模得到的语言模型针对数据稀疏的特殊场景预测性能差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理，具体涉及一种语言模型建模方法及设备。

技术介绍

1、近年来，随着对神经网络研究的深入，其已广泛应用于语音识别、机器翻译、自然语言处理、图像识别等领域中。语言模型是语音识别及自然语言处理的关键部分，任务是预测一段话中词序列出现的概率；基于rnn的语言模型建模技术已成为目前主流的语言模型建模方法，但rnn语言模型的性能取决于训练语料的规模和质量，而某些特殊应用场景的高质量语料往往难以获取，例如电话交谈、军事等领城。因此，如何在低资源条件下进行语言模型的建模成为了待研究的难点。

技术实现思路

1、鉴于上述的分析，本专利技术旨在公开一种语言模型建模方法及设备，解决了现有技术中建模得到的语言模型针对数据稀疏的特殊场景预测性能差的问题。

2、本专利技术的目的主要是通过以下技术方案实现的：

3、一方面，本专利技术公开了一种语言模型建模方法，该方法包括：

4、构建初级语言模型，所述初级语言模型包括共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块，用于分别对输入的文本序列进行特征提取，得到所述文本序列对应的两个特征向量，以学习文本序列中词序列组合规律；

5、获取多个文本数据，构建样本数据集；

6、利用所述样本数据集对所述初级语言模型进行训练，经过损失函数迭代更新及参数微调，得到所述语言模型；所述语言模型用于基于学习得到的词序列组合规律，预测句子中特定词序列出现的概率。

7、进一步的，所述共享

8、进一步的，所述共享状态子空间递归神经网络模块在训练过程中，将输入的所有文本序列的状态空间分为一个共享状态子空间和多个任务相关状态子空间；

9、所述共享状态子空间由输入的每个文本序列共同包含的词汇及状态表示组成，用于捕捉共享的层级信息和上下文关系；

10、每个所述任务相关状态子空间由对应文本序列中不包含在共享状态子空间中的词汇及状态表示组成，用于捕捉特定于每个递归层的信息和上下文。

11、进一步的，所述共享隐含层递归神经网络模块采用不添加任务标记符的样本数据进行参数微调；所述共享状态子空间递归神经网络模块将训练数据中每个文本序列的共享部分与对应的任务相关部分串接后进行参数微调。

12、进一步的，所述语言模型包括输入层、特征提取层和特征融合层；

13、所述输入层用于将输入的所述文本数据集训中的每个文本序列的每个元素通过编码操作转化为向量表示；

14、所述特征提取层包括并行设置的所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块，用于分别对输入的所述向量表示进行特征提取，得到输入的所述文本序列对应的两个特征向量；

15、所述特征融合层用于对两个所述特征向量进行权值融合和激活操作，得到词序列组合概率。

16、进一步的，所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块均基于lstm递归神经网络构建得到；且均包括多个lstm层，多个所述lstm层在所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块中均建模为树结构。

17、进一步的，每个所述lstm层在树结构中对应一个节点，每个节点的输入为其子节点的隐藏状态，用于在不同层级之间传递信息，并捕捉层级关系和上下文依赖关系。

18、进一步的，所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块中的多个lstm层在其所在模块内的不同层级上共享相同的权重参数，并利用相同的记忆单元和门控单元进行信息传递和处理。

19、进一步的，所述特征融合层利用熵值法计算所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块的输出权值，并进行加权求和，将加权求和后的结果经过激活操作，得到所述词序列组合概率。

20、另一方面，还公开了一种计算机设备，包括至少一个处理器，以及至少一个与所述处理器通信连接的存储器；

21、所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现前述的语言模型建模方法。

22、本专利技术至少可实现以下有益效果之一：

23、1.本专利技术的语言模型通过递归神经网络和长短时记忆网络的扩展和改进，将递归结构引入lstm层中，以建模数据的层级结构和上下文依赖关系，通过对隐藏状态的递归连接，实现了对更远时间步的上下文信息的建模，在不同层级之间传递信息，极大程度上提高了低语料资源条件下语音识别的准确性。

24、2.本专利技术共享隐含层递归神经网络模块在训练过程中，为每个输入的文本序列的所有词汇添加一个任务标记符，将出现在不同文本序列中的词汇强制映射到不同的状态空间，以学习得到每个文本序列中包含的信息，改善了特定模型的学习效果，提高了模型预测的准确性。

25、3.共享状态子空间递归神经网络模块将每个输入的文本序列的状态空间分为一个共享状态子空间和多个任务相关状态子空间；共享状态子空间由各个输入的每个文本序列共同包含的词汇及状态表示组成，用于捕捉共享的层级信息和上下文关系；每个任务相关状态子空间由对应文本序列中不包含在共享状态子空间中的词汇及状态表示组成，用于捕捉特定于每个递归层的信息和上下文，实现了更加有效地捕捉输入序列中的层级结构和上下文依赖关系，提高了模型的表达能力和性能。

本文档来自技高网...

【技术保护点】

1.一种语言模型建模方法，其特征在于，包括：

2.根据权利要求1所述的语言模型建模方法，其特征在于，所述共享隐含层递归神经网络模块在训练过程中，为输入的不同的文本序列的词汇添加不同的任务标记符，以区分不同文本序列中相同的词汇，并将出现在不同文本序列中的相同的词汇强制映射到不同的状态空间，以学习得到每个文本序列中包含的信息。

3.根据权利要求2所述的语言模型建模方法，其特征在于，所述共享状态子空间递归神经网络模块在训练过程中，将输入的所有文本序列的状态空间分为一个共享状态子空间和多个任务相关状态子空间；

4.根据权利要求3所述的语言模型建模方法，其特征在于，所述共享隐含层递归神经网络模块采用不添加任务标记符的样本数据进行参数微调；所述共享状态子空间递归神经网络模块将训练数据中每个文本序列的共享部分与对应的任务相关部分串接后进行参数微调。

5.根据权利要求1所述的语言模型建模方法，其特征在于，所述语言模型包括输入层、特征提取层和特征融合层；

6.根据权利要求5所述的语言模型建模方法，其特征在于，所述共享隐含层递归神经网络模块

7.根据权利要求6所述的语言模型建模方法，其特征在于，每个所述LSTM层在树结构中对应一个节点，每个节点的输入为其子节点的隐藏状态，用于在不同层级之间传递信息，并捕捉层级关系和上下文依赖关系。

8.根据权利要求3所述的语言模型建模方法，其特征在于，所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块中的多个LSTM层在其所在模块内的不同层级上共享相同的权重参数，并利用相同的记忆单元和门控单元进行信息传递和处理。

9.根据权利要求5所述的语言模型建模方法，其特征在于，所述特征融合层利用熵值法计算所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块的输出权值，并进行加权求和，将加权求和后的结果经过激活操作，得到所述词序列组合概率。

10.一种计算机设备，其特征在于，包括至少一个处理器，以及至少一个与所述处理器通信连接的存储器；

...

【技术特征摘要】

1.一种语言模型建模方法，其特征在于，包括：

5.根据权利要求1所述的语言模型建模方法，其特征在于，所述语言模型包括输入层、特征提取层和特征融合层；

6.根据权利要求5所述的语言模型建模方法，其特征在于，所述共享隐含层递归神经网络模块...

【专利技术属性】
技术研发人员：王云禄，周松，田立文，张殿睿，侯北辰，
申请(专利权)人：北京航星机器制造有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人