实时字幕的处理方法和装置制造方法及图纸

技术编号:27692714 阅读:23 留言:0更新日期:2021-03-17 04:53
本发明专利技术提供了一种实时字幕的处理方法和装置,该方法包括:基于WebSocket协议获取实时采集的视频流和音频流,其中,所述视频流和所述音频流均携带有起始时间戳;基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理;基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕,其中,所述字幕携带有所述字幕的时间轴,所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间;根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成。本发明专利技术的方案能够有效降低字幕的生成、合成和处理的延时,保证视频直播的实时性。

【技术实现步骤摘要】
实时字幕的处理方法和装置
本专利技术涉及计算机
,特别涉及一种实时字幕的处理方法和装置。
技术介绍
在当前的视频直播
中,由于视频直播场景对实时性的要求很高,往往无法提供实时字幕。随着视频直播的流行,人们对视频直播字幕的需求也越来越迫切。但是视频直播是随着事件的现场发生和进行而开展的,无法提前录制字幕,如何生成字幕并及时合成到视频直播中,这是一个无法避免的问题。目前业界的解决方案是:将视频直播的音频流和视频流进行分离,将剥离出的音频流进行语音识别转换为文字,这样就解决了字幕的生成问题。接下来要解决的是字幕的合成问题,因为一段音频不可能全部都是主播在说话,需要识别出字幕的开始时间和结束时间,再比对原音频流的时间戳,进行同步合成。在合成的过程中,根据直播的不同场景需求,往往还需要对字幕进行各种定制化处理。字幕的生成、合成和处理都需要时间,这些延时都将推迟整个视频直播的播出。因此实时性问题就成为一个亟待解决的问题。
技术实现思路
本专利技术实施例提供了实时字幕的处理方法和装置,能够有效降低字幕的生成、合成和处理的延时,保证视频直播的实时性。第一方面,本专利技术实施例提供了实时字幕的处理方法,包括:基于WebSocket协议获取实时采集的视频流和音频流,其中,所述视频流和所述音频流均携带有起始时间戳;基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理;基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕,其中,所述字幕携带有所述字幕的时间轴,所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间;根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成。在一种可能的设计中,所述根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成,包括:根据预设的定制化处理规则对所述字幕进行处理,得到目标字幕;将所述视频流、所述音频流和所述目标字幕进行合成。在一种可能的设计中,所述定制化处理规则,包括:字幕过滤规则、字幕替换规则和/或字幕修饰规则;所述字幕过滤规则包括对所述字幕中第一目标词语进行过滤;所述字幕替换规则包括对所述字幕中第二目标词语进行替换;所述字幕修饰规则包括对所述字幕中第三目标词语进行修饰。在一种可能的设计中,所述基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理,包括:基于WebSocket协议将除所述起始时间戳外的音频流进行数据转换,得到第一音频数据,其中,所述数据转换包括数据大小转换和数据格式转换;将所述第一音频数据按照按照预设的编码类型进行编码,得到第二音频数据;将所述第二音频数据输入到内存队列中;基于WebSocket协议将位于所述内存队列中的第二音频数据发送给外部的语音识别器进行语音识别处理。第二方面,本专利技术实施例提供了实时字幕的处理装置,包括:获取模块,用于基于WebSocket协议获取实时采集的视频流和音频流,其中,所述视频流和所述音频流均携带有起始时间戳;发送模块,用于基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理;接收模块,用于基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕,其中,所述字幕携带有所述字幕的时间轴,所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间;合成模块,用于根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成。在一种可能的设计中,所述合成模块,用于执行如下操作:根据预设的定制化处理规则对所述字幕进行处理,得到目标字幕;将所述视频流、所述音频流和所述目标字幕进行合成。在一种可能的设计中,所述定制化处理规则,包括:字幕过滤规则、字幕替换规则和/或字幕修饰规则;所述字幕过滤规则包括对所述字幕中第一目标词语进行过滤;所述字幕替换规则包括对所述字幕中第二目标词语进行替换;所述字幕修饰规则包括对所述字幕中第三目标词语进行修饰。在一种可能的设计中,所述发送模块,用于执行如下操作:基于WebSocket协议将除所述起始时间戳外的音频流进行数据转换,得到第一音频数据,其中,所述数据转换包括数据大小转换和数据格式转换;将所述第一音频数据按照按照预设的编码类型进行编码,得到第二音频数据;将所述第二音频数据输入到内存队列中;基于WebSocket协议将位于所述内存队列中的第二音频数据发送给外部的语音识别器进行语音识别处理。第三方面,本专利技术实施例提供了实时字幕的处理装置,包括:至少一个存储器和至少一个处理器;所述至少一个存储器,用于存储机器可读程序;所述至少一个处理器,用于调用所述机器可读程序,执行上述所述的方法。第四方面,本专利技术实施例提供了计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述所述的方法。由上述方案可知,本专利技术提供的实时字幕的处理方法和装置,基于WebSocket协议获取实时采集的视频流和音频流,其中,音频流携带有起始时间戳;基于WebSocket协议将音频流发送给外部的语音识别器进行语音识别处理;基于WebSocket协议接收由语音识别器发来的与音频流对应的字幕,其中,字幕携带有字幕的时间轴,时间轴包括字幕相对于起始时间戳的起始时间和结束时间;根据起始时间戳和时间轴,将视频流、音频流和字幕进行合成。由于通过WebSocket协议分别建立起获取音频流、发送音频流和接收与音频流对应的字幕的连接,如此可以实时将获取的音频流转换为字幕,从而能够有效降低字幕的生成、合成和处理的延时,保证视频直播的实时性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的实时字幕的处理方法的流程图;图2是本专利技术一个实施例提供的实时字幕的处理装置所在设备的示意图;图3是本专利技术一个实施例提供的实时字幕的处理装置的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1是本专利技术一个实施例提供的实时字幕的处理方法的流程图。如图1所示,该方法可以包括以下步骤:步骤101、本文档来自技高网...

【技术保护点】
1.实时字幕的处理方法,其特征在于,包括:/n基于WebSocket协议获取实时采集的视频流和音频流,其中,所述视频流和所述音频流均携带有起始时间戳;/n基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理;/n基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕,其中,所述字幕携带有所述字幕的时间轴,所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间;/n根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成。/n

【技术特征摘要】
1.实时字幕的处理方法,其特征在于,包括:
基于WebSocket协议获取实时采集的视频流和音频流,其中,所述视频流和所述音频流均携带有起始时间戳;
基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理;
基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕,其中,所述字幕携带有所述字幕的时间轴,所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间;
根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成。


2.根据权利要求1所述的方法,其特征在于,所述根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成,包括:
根据预设的定制化处理规则对所述字幕进行处理,得到目标字幕;
将所述视频流、所述音频流和所述目标字幕进行合成。


3.根据权利要求2所述的方法,其特征在于,所述定制化处理规则,包括:字幕过滤规则、字幕替换规则和/或字幕修饰规则;
所述字幕过滤规则包括对所述字幕中第一目标词语进行过滤;
所述字幕替换规则包括对所述字幕中第二目标词语进行替换;
所述字幕修饰规则包括对所述字幕中第三目标词语进行修饰。


4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理,包括:
基于WebSocket协议将除所述起始时间戳外的音频流进行数据转换,得到第一音频数据,其中,所述数据转换包括数据大小转换和数据格式转换;
将所述第一音频数据按照按照预设的编码类型进行编码,得到第二音频数据;
将所述第二音频数据输入到内存队列中;
基于WebSocket协议将位于所述内存队列中的第二音频数据发送给外部的语音识别器进行语音识别处理。


5.实时字幕的处理装置,其特征在于,包括:
获取模块,用于基于WebSocket协议获取实时采集的视频流和音频流,其中,所述视频流和所述音频流均携带有起始时间戳;<...

【专利技术属性】
技术研发人员:贺志龙吴林锋
申请(专利权)人:浪潮天元通信信息系统有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1