实时字幕的处理方法和装置制造方法及图纸

技术编号：27692714 阅读：23 留言：0更新日期：2021-03-17 04:53

本发明专利技术提供了一种实时字幕的处理方法和装置，该方法包括：基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕，其中，所述字幕携带有所述字幕的时间轴，所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间；根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成。本发明专利技术的方案能够有效降低字幕的生成、合成和处理的延时，保证视频直播的实时性。

全部详细技术资料下载

【技术实现步骤摘要】
实时字幕的处理方法和装置
本专利技术涉及计算机
，特别涉及一种实时字幕的处理方法和装置。
技术介绍
在当前的视频直播
中，由于视频直播场景对实时性的要求很高，往往无法提供实时字幕。随着视频直播的流行，人们对视频直播字幕的需求也越来越迫切。但是视频直播是随着事件的现场发生和进行而开展的，无法提前录制字幕，如何生成字幕并及时合成到视频直播中，这是一个无法避免的问题。目前业界的解决方案是：将视频直播的音频流和视频流进行分离，将剥离出的音频流进行语音识别转换为文字，这样就解决了字幕的生成问题。接下来要解决的是字幕的合成问题，因为一段音频不可能全部都是主播在说话，需要识别出字幕的开始时间和结束时间，再比对原音频流的时间戳，进行同步合成。在合成的过程中，根据直播的不同场景需求，往往还需要对字幕进行各种定制化处理。字幕的生成、合成和处理都需要时间，这些延时都将推迟整个视频直播的播出。因此实时性问题就成为一个亟待解决的问题。
技术实现思路
本专利技术实施例提供了实时字幕的处理方法和装置，能够有效降低字幕的生成、合成和处理的延时，保证视频直播的实时性。第一方面，本专利技术实施例提供了实时字幕的处理方法，包括：基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的...

【技术保护点】
1.实时字幕的处理方法，其特征在于，包括：/n基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；/n基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；/n基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕，其中，所述字幕携带有所述字幕的时间轴，所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间；/n根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成。/n

【技术特征摘要】
1.实时字幕的处理方法，其特征在于，包括：
基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；
基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；
基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕，其中，所述字幕携带有所述字幕的时间轴，所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间；
根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成。

2.根据权利要求1所述的方法，其特征在于，所述根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成，包括：
根据预设的定制化处理规则对所述字幕进行处理，得到目标字幕；
将所述视频流、所述音频流和所述目标字幕进行合成。

3.根据权利要求2所述的方法，其特征在于，所述定制化处理规则，包括：字幕过滤规则、字幕替换规则和/或字幕修饰规则；
所述字幕过滤规则包括对所述字幕中第一目标词语进行过滤；
所述字幕替换规则包括对所述字幕中第二目标词语进行替换；
所述字幕修饰规则包括对所述字幕中第三目标词语进行修饰。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理，包括：
基于WebSocket协议将除所述起始时间戳外的音频流进行数据转换，得到第一音频数据，其中，所述数据转换包括数据大小转换和数据格式转换；
将所述第一音频数据按照按照预设的编码类型进行编码，得到第二音频数据；
将所述第二音频数据输入到内存队列中；
基于WebSocket协议将位于所述内存队列中的第二音频数据发送给外部的语音识别器进行语音识别处理。

5.实时字幕的处理装置，其特征在于，包括：
获取模块，用于基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；<...

【专利技术属性】
技术研发人员：贺志龙，吴林锋，
申请(专利权)人：浪潮天元通信信息系统有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人