一种军用语音转写一体机制造技术

技术编号：40563959 阅读：46 留言：0更新日期：2024-03-05 19:27

本发明专利技术涉及军用语音转写一体机；包括音频采集端、记录主机及人机交互模块；音频采集端用于利用选择的音频采集模式对声音进行收音并输入到记录主机；记录主机采用国产处理器，用于记录音频采集端采集到的语音，并运行预设的基于共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块的语音转写方法，对语音进行预处理及语音转写，得到语音对应的转写文本，并发送至人机交互模块进行显示；人机交互模块用于显示转写文本，以及用于音频采集模式选择。本发明专利技术解决了现有技术中的语音转写设备不适用军用领域，且在低资源条件下识别准确性差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理，具体涉及一种军用语音转写一体机。

技术介绍

1、当前由人工智能引领的新一轮科技革命和产业变革方兴未艾。近年来，语音人工智能技术和产品，在办公系统、手机终端、智能音响等民品市场得到较充分运用并取得长足发展，深刻改变了人们与计算机等智能产品的传统交互方式，为人们提供了全新快捷的语音交互收听方式，极大地提高了人机操作的便捷性，为人们整理会议记录等语音文件提供了快捷高效的先进手段，并取得了巨大的经济效益和社会效益，呈现出加速发展之势。

2、然而由于受到保密和管理等诸多因素制约，我国军队等单位日常办公，特别是形式多样的会议记录等作业方式，仍然沿用传统的人工手记或录音机记录，事后再重新整理成文字的传统方式。当前民用语音人工智能产品得到长足发展。但由于军队管理的特殊性，急需一种在复杂环境下的安全、快速、准确的语音识别转写设备。

技术实现思路

1、鉴于上述的分析，本专利技术旨在公开一种军用语音转写一体机，解决了现有技术中的语音识别设备不适用军用领域，且在低资源条件下识别准确性差的问题。

2、本专利技术的目的主要是通过以下技术方案实现的：

3、一方面，本专利技术公开了一种军用语音转写一体机，包括音频采集端、记录主机及人机交互模块；

4、所述音频采集端用于利用选择的音频采集模式对声音进行收音并输入到所述记录主机；

5、所述记录主机采用国产处理器，用于记录所述音频采集端采集到的语音，并运行预设的基于共享隐含层递归神经

6、所述人机交互模块用于显示所述转写文本，以及用于音频采集模式选择。

7、进一步的，所述记录主机还包括耳机麦克风接口、wifi、usb接口、hdmi接口和rj45网口，分别用于连接对应接口的外部设备；

8、所述音频采集端的音频采集模式包括：内置麦克风、指向麦克风、全向麦克风和会议发言模式。

9、进一步的，预设的所述语音转写方法通过预先构建并训练得到声学模型和语言模型实现；

10、所述声学模型利用预先构建的语音数据集训练得到，用于对输入的语音数据进行特征提取及预测，得到输入的所述语音数据对应的音素概率分布；

11、所述语言模型利用预先构建的文本数据集训练得到，包括共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块，用于基于所述音素概率分布，通过解码搜索得到所述语音数据对应的词序列组合概率；

12、基于所述词序列组合概率得到所述语音数据对应的转写文本。

13、进一步的，所述语言模型包括输入层、特征提取层和特征融合层；

14、所述输入层用于将输入的所述文本数据集训中的每个文本序列的每个元素通过编码操作转化为向量表示；

15、所述特征提取层包括并行设置的共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块，用于分别对输入的所述向量表示进行特征提取，得到输入的所述文本序列对应的两个特征向量；

16、所述特征融合层用于对两个所述特征向量进行权值融合和激活操作，得到所述词序列组合概率。

17、进一步的，所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块均基于lstm递归神经网络构建得到；且均包括多个lstm层，多个所述lstm层在所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块中均建模为树结构。

18、进一步的，所述共享隐含层递归神经网络模块在训练过程中，为输入的不同的文本序列的词汇添加不同的任务标记符，以区分不同文本序列中相同的词汇，并将出现在不同文本序列中的相同的词汇强制映射到不同的状态空间，以学习得到每个文本序列中包含的信息。

19、进一步的，所述共享状态子空间递归神经网络模块在训练过程中，将每个输入的文本序列的状态空间分为一个共享状态子空间和多个任务相关状态子空间；

20、所述共享状态子空间由输入的每个文本序列共同包含的词汇及状态表示组成，用于捕捉共享的层级信息和上下文关系；

21、每个所述任务相关状态子空间由对应文本序列中不包含在共享状态子空间中的词汇及状态表示组成，用于捕捉特定于每个递归层的信息和上下文。

22、进一步的，每个所述lstm层在树结构中对应一个节点，每个节点的输入为其子节点的隐藏状态，用于在不同层级之间传递信息，并捕捉层级关系和上下文依赖关系。

23、进一步的，所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块中的多个lstm层在其所在模块内的不同层级上共享相同的权重参数，并利用相同的记忆单元和门控单元进行信息传递和处理。

24、进一步的，所述特征融合层利用熵值法计算所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块的输出权值，并进行加权求和，将加权求和后的结果经过激活操作，得到所述词序列组合概率。

25、本专利技术至少可实现以下有益效果之一：

26、1.本专利技术的语音转写一体机为了适应军事领域应用的需求，采用国产化处理器及外围器件，国产化率95％，满足军用领域对于硬件安全的要求。

27、2.本专利技术的语音转写一体机针对军事领域环境复杂、训练语料难以获取等特点，采用的语言模型通过递归神经网络和长短时记忆网络的扩展和改进，将递归结构引入lstm层中，以建模数据的层级结构和上下文依赖关系，通过对隐藏状态的递归连接，实现了对更远时间步的上下文信息的建模，在不同层级之间传递信息，极大程度上提高了低语料资源条件下语音识别的准确性。

28、3.本专利技术共享隐含层递归神经网络模块在训练过程中，为每个输入的文本序列的所有词汇添加一个任务标记符，将出现在不同文本序列中的词汇强制映射到不同的状态空间，以学习得到每个文本序列中包含的信息，改善了特定模型的学习效果，提高了模型预测的准确性。

29、4.共享状态子空间递归神经网络模块将每个输入的文本序列的状态空间分为一个共享状态子空间和多个任务相关状态子空间；共享状态子空间由各个输入的每个文本序列共同包含的词汇及状态表示组成，用于捕捉共享的层级信息和上下文关系；每个任务相关状态子空间由对应文本序列中不包含在共享状态子空间中的词汇及状态表示组成，用于捕捉特定于每个递归层的信息和上下文，实现了更加有效地捕捉输入序列中的层级结构和上下文依赖关系，提高了模型的表达能力和性能。

本文档来自技高网...

【技术保护点】

1.一种军用语音转写一体机，其特征在于，包括音频采集端、记录主机及人机交互模块；

2.根据权利要求1所述的军用语音转写一体机，其特征在于，所述记录主机还包括耳机麦克风接口、WIFI、USB接口、HDMI接口和RJ45网口，分别用于连接对应接口的外部设备；

3.根据权利要求1所述的军用语音转写一体机，其特征在于，预设的所述语音转写方法通过预先构建并训练得到声学模型和语言模型实现；

4.根据权利要求3所述的军用语音转写一体机，其特征在于，所述语言模型包括输入层、特征提取层和特征融合层；

5.根据权利要求4所述的军用语音转写一体机，其特征在于，所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块均基于LSTM递归神经网络构建得到；且均包括多个LSTM层，多个所述LSTM层在所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块中均建模为树结构。

6.根据权利要求5所述的军用语音转写一体机，其特征在于，所述共享隐含层递归神经网络模块在训练过程中，为输入的不同的文本序列的词汇添加不同的任务标记符，以区分不同文本序

7.根据权利要求5所述的军用语音转写一体机，其特征在于，所述共享状态子空间递归神经网络模块在训练过程中，将输入的所有文本序列的状态空间分为一个共享状态子空间和多个任务相关状态子空间；

8.根据权利要求5所述的军用语音转写一体机，其特征在于，每个所述LSTM层在树结构中对应一个节点，每个节点的输入为其子节点的隐藏状态，用于在不同层级之间传递信息，并捕捉层级关系和上下文依赖关系。

9.根据权利要求5所述的军用语音转写一体机，其特征在于，所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块中的多个LSTM层在其所在模块内的不同层级上共享相同的权重参数，并利用相同的记忆单元和门控单元进行信息传递和处理。

10.根据权利要求3所述的军用语音转写一体机，其特征在于，所述特征融合层利用熵值法计算所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块的输出权值，并进行加权求和，将加权求和后的结果经过激活操作，得到所述词序列组合概率。

...

【技术特征摘要】

1.一种军用语音转写一体机，其特征在于，包括音频采集端、记录主机及人机交互模块；

2.根据权利要求1所述的军用语音转写一体机，其特征在于，所述记录主机还包括耳机麦克风接口、wifi、usb接口、hdmi接口和rj45网口，分别用于连接对应接口的外部设备；

3.根据权利要求1所述的军用语音转写一体机，其特征在于，预设的所述语音转写方法通过预先构建并训练得到声学模型和语言模型实现；

4.根据权利要求3所述的军用语音转写一体机，其特征在于，所述语言模型包括输入层、特征提取层和特征融合层；

5.根据权利要求4所述的军用语音转写一体机，其特征在于，所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块均基于lstm递归神经网络构建得到；且均包括多个lstm层，多个所述lstm层在所述共享隐含层递归神经网络模块和共享状态子空间递归神经网络模块中均建模为树结构。

6.根据权利要求5所述的军用语音转写一体机，其特征在于，所述共享隐含层递归神经网络模块在训练过程中，为输入的不同的文本序列的词汇添加不同的任务标记符，以区分不同文本序列中相同...

【专利技术属性】
技术研发人员：王云禄，周松，田立文，张殿睿，侯北辰，
申请(专利权)人：北京航星机器制造有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人