一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置制造方法及图纸

技术编号：44489873 阅读：0 留言：0更新日期：2025-03-04 17:54

本发明专利技术公开了一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置，涉及字幕生成技术领域。首先对输入的音视频进行提取音频数据及预处理，作为下一步模型的输入数据；接下来进行垂直领域语音识别压缩，主要分为压缩和推理两个阶段，其中压缩阶段基于新闻语音的特征，对现有的神经网络语音识别模型进行新闻语音特征提取和模型压缩，减少模型中通用语音识别领域的知识；而推理阶段则利用压缩后的模型进行自动化语音识别。然后将文本信息与音频数据的时间轴同步，生成时间戳；根据时间戳和文本内容，动态生成新闻字幕。本发明专利技术聚焦于新闻字幕生成，针对嵌入式的运行场景进行优化，基于垂直领域语音识别模型压缩技术实现自动化字幕实时生成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及字幕生成，特别涉及一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置。

技术介绍

1、随着互联网和社交媒体的发展，新闻信息量呈爆炸性增长，自动化处理新闻语言的需求日益迫切。新闻语言具有专业性、实时性和信息密度高等特点，并且作为信息传播的主要渠道，承担着我国宣传的重大责任。同时，随着智能设备的普及，用户对信息的可访问性需求日益增长，特别是浩如烟海的嵌入式设备已逐渐成为用户获取信息的重要渠道。为了提高新闻信息的传播效率，在嵌入式设备上进行高精度的字幕生成，对于我国的信息化建设和价值观普及具有重大意义。

2、然而，嵌入式设备往往计算能力和存储资源有限，特别是运行内存通常都较小。传统的字幕生成技术，如基于深度学习的方法，往往依赖于复杂的算法和大量的计算资源，才能实现较高的识别精度。即使一些系统可以通过服务端的介入来缓解该问题，但这在离线或网络受限的环境中是不可行的。因此，对于嵌入式设备而言，这些技术不仅难以部署，而且可能因为资源限制而无法高效运行，因此对嵌入式设备的高精度字幕生成技术提出了特殊的要求。

3、另一方面，现有的轻量级语言识别模型(如vosk、pocketsphinx和julius等)虽然能在嵌入设备上运行，但其低精度、低鲁棒性、低适应性的缺点导致其很难满足现实中语音识别的需求，特别是在对准确度要求较高的新闻领域。

技术实现思路

1、本专利技术要解决的技术问题，在于提供一种为嵌入式设备优化的高精度新闻字幕实时生成方法及装置，聚焦于新闻字幕

2、第一方面，本专利技术提供了一种为嵌入式设备优化的高精度新闻字幕实时生成方法，包括：

3、垂直领域语音识别模型压缩过程：基于现有的新闻音频数据预处理后采用whisper语音识别模型提取新闻语音特征，然后根据新闻语音特征的相似度生成奖励函数，并采用amc模型压缩算法对whisper语音识别模型进行压缩，得到应用于嵌入式设备的压缩语音识别模型；

4、新闻字幕生成过程：对输入嵌入式设备的音视频流中的音频数据进行预处理，转化为对数梅尔频谱图，然后输入压缩语音识别模型，得到与音频数据对应的文本数据以及标点符号和单词级的时间戳；

5、新闻字幕实时展示过程：动态监测音频和文本数据流之间的延迟，并结合时间戳校准机制，使用音频信号中的时间戳信息来同步字幕的显示，从而确保字幕与音频的同步。

6、进一步地，所述垂直领域语音识别模型压缩过程中，基于现有的新闻音频数据预处理后提取新闻语音特征，具体包括：

7、首先获取新闻音频数据集并分段，进行降噪和音量标准化等预处理。然后使用两个连续的一维卷积层并使用gelu激活函数处理输入，并添加正弦位置编码，为模型提供序列中每个元素的位置信息。最后输入到whisper语音识别模型的编码器网络中进行表征提取，从而得到新闻语音特征。

8、进一步地，所述垂直领域语音识别模型压缩过程中，根据新闻语音特征的相似度生成奖励函数，具体为：利用从新闻数据集中提取的表征信息，与压缩后的模型在输入相同新闻数据集后编码器生成的表征信息进行相似度比较，将相似度加入amc的奖励函数中，公式如下：

9、rerr＝-error+sim

10、其中，error表示预测值与实际值之间的误差，sim表示两者相似度的余弦值。

11、进一步地，所述新闻字幕生成过程中，采用缓冲机制处理音频和文本数据流的延迟。

12、进一步地，所述新闻字幕生成过程中，当输出包含一个句子结束的标点符号，后面跟着一个开始新句子的单词时，缓冲区在标点符号的时间戳处被修剪，保证缓冲区以新句子开始。

13、第二方面，本专利技术提供了一种为嵌入式设备优化的高精度新闻字幕实时生成装置，包括：

14、垂直领域语音识别模型压缩模块，用于基于现有的新闻音频数据预处理后采用whisper语音识别模型提取新闻语音特征，然后根据新闻语音特征的相似度生成奖励函数，并采用amc模型压缩算法对whisper语音识别模型进行压缩，得到应用于嵌入式设备的压缩语音识别模型；

15、新闻字幕生成模块，用于对输入嵌入式设备的音视频流中的音频数据进行预处理，转化为对数梅尔频谱图，然后输入压缩语音识别模型，得到与音频数据对应的文本数据以及标点符号和单词级的时间戳；

16、新闻字幕实时展示模块，用于动态监测音频和文本数据流之间的延迟，并结合时间戳校准机制，使用音频信号中的时间戳信息来同步字幕的显示，从而确保字幕与音频的同步。

17、进一步地，所述垂直领域语音识别模型压缩模块中，基于现有的新闻音频数据预处理后提取新闻语音特征，具体包括：

18、首先获取新闻音频数据集并分段，进行降噪和音量标准化等预处理。然后使用两个连续的一维卷积层并使用gelu激活函数处理输入，并添加正弦位置编码，为模型提供序列中每个元素的位置信息。最后输入到whisper语音识别模型的编码器网络中进行表征提取，从而得到新闻语音特征。

19、进一步地，所述垂直领域语音识别模型压缩模块中，根据新闻语音特征的相似度生成奖励函数，具体为：利用从新闻数据集中提取的表征信息，与压缩后的模型在输入相同新闻数据集后编码器生成的表征信息进行相似度比较，将相似度加入amc的奖励函数中，公式如下：

20、rerr＝-error+sim

21、其中，error表示预测值与实际值之间的误差，sim表示两者相似度的余弦值。

22、进一步地，所述新闻字幕生成模块中，采用缓冲机制处理音频和文本数据流的延迟。

23、进一步地，所述新闻字幕生成模块中，当输出包含一个句子结束的标点符号，后面跟着一个开始新句子的单词时，缓冲区在标点符号的时间戳处被修剪，保证缓冲区以新句子开始。

24、本专利技术实施例中提供的技术方案，至少具有如下技术效果：

25、通过对高精度语音识别模型的垂直领域定向压缩和流式处理技术，在资源受限的嵌入式设备上实现效率和精度平衡的新闻语音识别和字幕生成；不依赖网络连接，可以在没有网络支持的环境中独立运行，同时提高了在多变环境下的鲁棒性，适用于更广泛的使用场景。

26、上述说明仅是本专利技术技术方案的概述，为了能够更清楚了解本专利技术的技术手段，而可依照说明书的内容予以实施，并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本专利技术的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种为嵌入式设备优化的高精度新闻字幕实时生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于：所述垂直领域语音识别模型压缩过程中，基于现有的新闻音频数据预处理后提取新闻语音特征，具体包括：

3.根据权利要求1或2所述的方法，其特征在于：所述垂直领域语音识别模型压缩过程中，根据新闻语音特征的相似度生成奖励函数，具体为：利用从新闻数据集中提取的表征信息，与压缩后的模型在输入相同新闻数据集后编码器生成的表征信息进行相似度比较，将相似度加入AMC的奖励函数中，公式如下：

4.根据权利要求1所述的方法，其特征在于：所述新闻字幕生成过程中，采用缓冲机制处理音频和文本数据流的延迟。

5.根据权利要求1或4所述的方法，其特征在于：所述新闻字幕生成过程中，当输出包含一个句子结束的标点符号，后面跟着一个开始新句子的单词时，缓冲区在标点符号的时间戳处被修剪，保证缓冲区以新句子开始。

6.一种为嵌入式设备优化的高精度新闻字幕实时生成装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于：所述垂直领域

8.根据权利要求6或7所述的装置，其特征在于：所述垂直领域语音识别模型压缩模块中，根据新闻语音特征的相似度生成奖励函数，具体为：利用从新闻数据集中提取的表征信息，与压缩后的模型在输入相同新闻数据集后编码器生成的表征信息进行相似度比较，将相似度加入AMC的奖励函数中，公式如下：

9.根据权利要求6所述的方法，其特征在于：所述新闻字幕生成模块中，采用缓冲机制处理音频和文本数据流的延迟。

10.根据权利要求6或9所述的方法，其特征在于：所述新闻字幕生成模块中，当输出包含一个句子结束的标点符号，后面跟着一个开始新句子的单词时，缓冲区在标点符号的时间戳处被修剪，保证缓冲区以新句子开始。

...

【技术特征摘要】

1.一种为嵌入式设备优化的高精度新闻字幕实时生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于：所述垂直领域语音识别模型压缩过程中，基于现有的新闻音频数据预处理后提取新闻语音特征，具体包括：

3.根据权利要求1或2所述的方法，其特征在于：所述垂直领域语音识别模型压缩过程中，根据新闻语音特征的相似度生成奖励函数，具体为：利用从新闻数据集中提取的表征信息，与压缩后的模型在输入相同新闻数据集后编码器生成的表征信息进行相似度比较，将相似度加入amc的奖励函数中，公式如下：

4.根据权利要求1所述的方法，其特征在于：所述新闻字幕生成过程中，采用缓冲机制处理音频和文本数据流的延迟。

...

【专利技术属性】
技术研发人员：甘泉，张平，李雨情，
申请(专利权)人：福建星网智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人