直播数据处理方法及系统技术方案

技术编号:36459741 阅读:16 留言:0更新日期:2023-01-25 22:58
本申请实施例提供了直播数据处理方法及系统,其中,所述直播数据处理方法包括:对接收的初始直播流进行解码,生成音频流及第一视频流,对所述音频流进行语音识别,生成对应的识别文本,并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息,将所述识别文本作为字幕信息,并将所述字幕信息及所述时间间隔信息添加至所述第一视频流,生成第二视频流,对所述第二视频流及所述音频流进行编码,生成待推送直播流,并将所述待推送直播流返回至客户端。流返回至客户端。流返回至客户端。

【技术实现步骤摘要】
直播数据处理方法及系统


[0001]本申请实施例涉及计算机
,特别涉及直播数据处理方法。本申请一个或者多个实施例同时涉及一种直播数据处理系统,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着直播音视频行业的快速发展,利用现有数据流传输的技术,对高清画质、低延时、声画同步等要求已经优化到了极致,然而用户的需求并不满足于此。
[0003]在一些特殊场景中,比如大型体育赛事、大型会议报告、在线教育培训等,都需要对直播进行实时翻译并添加语言字幕。由于字幕需要先对直播流进行录像,然后提取音频流,人工或机器翻译后烧录到视频中,在重报时可以显示字幕。但这种处理方式无法给语言不通或者存在听觉障碍的受众群体带来直播效果。现有虽然已开发出直播实时生成字幕的技术,比如直播弹幕,但是该技术存在一些缺陷,例如,字幕和声音不同步,时而超前时而延后,受众群体的体验感及其不佳,无法满足其需求。因此,亟需一种有效的方法以解决此类问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供了直播数据处理方法。本申请一个或者多个实施例同时涉及直播数据处理装置,一种直播数据处理系统,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的生成直播字幕的成本高、效率低以及字幕存在延迟的技术缺陷。
[0005]根据本申请实施例的第一方面,提供了一种直播数据处理方法,包括:
[0006]对接收的初始直播流进行解码,生成音频流及第一视频流;
[0007]对所述音频流进行语音识别,生成对应的识别文本,并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息;
[0008]将所述识别文本作为字幕信息,并将所述字幕信息及所述时间间隔信息添加至所述第一视频流,生成第二视频流;
[0009]对所述第二视频流及所述音频流进行编码,生成待推送直播流,并将所述待推送直播流返回至客户端。
[0010]根据本申请实施例的第二方面,提供了一种直播数据处理装置,包括:
[0011]解码模块,被配置为对接收的初始直播流进行解码,生成音频流及第一视频流;
[0012]识别模块,被配置为对所述音频流进行语音识别,生成对应的识别文本,并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息;
[0013]添加模块,被配置为将所述识别文本作为字幕信息,并将所述字幕信息及所述时间间隔信息添加至所述第一视频流,生成第二视频流;
[0014]编码模块,被配置为对所述第二视频流及所述音频流进行编码,生成待推送直播
流,并将所述待推送直播流返回至客户端。
[0015]根据本申请实施例的第三方面,提供了另一种直播数据处理方法,包括:
[0016]接收并缓存直播服务器返回的待推送直播流;
[0017]对所述待推送直播流进行解码,生成对应的音频流、视频流、字幕信息以及所述字幕信息对应的时间间隔信息,其中,所述时间间隔信息由所述直播服务器根据所述的字幕信息的生成时间及所述音频流的接收时间确定;
[0018]根据所述时间间隔信息确定所述字幕信息的展示时间;
[0019]在确定满足所述待推送直播流的播放条件的情况下,对所述视频流及所述音频流进行同步播放,并基于所述展示时间展示所述字幕信息。
[0020]根据本申请实施例的第四方面,提供了另一种直播数据处理装置,包括:
[0021]接收模块,被配置为接收并缓存直播服务器返回的待推送直播流;
[0022]解码模块,被配置为对所述待推送直播流进行解码,生成对应的音频流、视频流、字幕信息以及所述字幕信息对应的时间间隔信息,其中,所述时间间隔信息由所述直播服务器根据所述的字幕信息的生成时间及所述音频流的接收时间确定;
[0023]确定模块,被配置为根据所述时间间隔信息确定所述字幕信息的展示时间;
[0024]展示模块,被配置为在确定满足所述待推送直播流的播放条件的情况下,对所述视频流及所述音频流进行同步播放,并基于所述展示时间展示所述字幕信息。
[0025]根据本申请实施例的第五方面,提供了一种直播数据处理系统,包括:
[0026]直播服务器和客户端;
[0027]所述直播服务器,用于对接收的初始直播流进行解码,生成音频流及第一视频流,对所述音频流进行语音识别,生成对应的识别文本,并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息,将所述识别文本作为字幕信息,并将所述字幕信息及所述时间间隔信息添加至所述第一视频流,生成第二视频流,对所述第二视频流及所述音频流进行编码,生成待推送直播流,并将所述待推送直播流返回至所述客户端;
[0028]所述客户端,用于接收并缓存所述待推送直播流,对所述待推送直播流进行解码,获得所述音频流、所述第二视频流、所述字幕信息以及所述时间间隔信息,根据所述时间间隔信息确定所述字幕信息的展示时间,在确定满足所述待推送直播流的播放条件的情况下,对所述第二视频流及所述音频流进行同步播放,并基于所述展示时间展示所述字幕信息。
[0029]根据本申请实施例的第六方面,提供了一种计算设备,包括:
[0030]存储器和处理器;
[0031]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,其中,所述处理器执行所述计算机可执行指令时实现所述直播数据处理方法的步骤。
[0032]根据本申请实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述直播数据处理方法的步骤。
[0033]本申请一个实施例实现了直播数据处理方法及系统,其中,所述直播数据处理方法包括对接收的初始直播流进行解码,生成音频流及第一视频流,对所述音频流进行语音识别,生成对应的识别文本,并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息,将所述识别文本作为字幕信息,并将所述字幕信息及所述时间间隔信
息添加至所述第一视频流,生成第二视频流,对所述第二视频流及所述音频流进行编码,生成待推送直播流,并将所述待推送直播流返回至客户端。
[0034]本申请实施例中,直播服务器对音频流进行语音识别,生成对应的识别文本,并记录识别文本的生成时间与接收音频流的时间之间的时间间隔,由于该时间间隔可用于表征直播服务器在接收到初始直播流后,用于对初始直播流中的音频流进行语音识别所消耗的时长,因此,在将该识别文本及时间间隔信息添加至视频流并返回至客户端后,客户端可预先解析获得待推送直播流中携带的字幕信息,并根据字幕信息的生成时间与直播服务器接收音频流的时间之间的时间间隔信息,确定字幕信息的展示时间,即确定该待推送直播流对应的完整字幕的展示时间,以基于该展示时间对完整字幕进行提前展示,既有利于降低生成字幕的成本,提高字幕生成效率,又有利于避免字幕与视频画面或音频之间的不同步,从而有利于满足用户在直播观看过程中,观看直播字幕的需本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种直播数据处理方法,其特征在于,包括:对接收的初始直播流进行解码,生成音频流及第一视频流;对所述音频流进行语音识别,生成对应的识别文本,并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息;将所述识别文本作为字幕信息,并将所述字幕信息及所述时间间隔信息添加至所述第一视频流,生成第二视频流;对所述第二视频流及所述音频流进行编码,生成待推送直播流,并将所述待推送直播流返回至客户端。2.根据权利要求1所述的直播数据处理方法,其特征在于,所述对接收的初始直播流进行解码,包括:确定所述客户端缓存的待播放直播流,并确定所述待播放直播流对应的生成时间;根据所述待播放直播流对应的直播流标识及所述生成时间,获取预设时间区间内、所述直播流标识对应的初始直播流,并对所述初始直播流进行解码,其中,所述预设时间区间晚于所述生成时间。3.根据权利要求2所述的直播数据处理方法,其特征在于,所述客户端对所述待播放直播流进行解码,生成对应的待播放音频流、待播放视频流、待展示字幕以及所述待展示字幕对应的展示时间;在确定满足所述待播放直播流的播放条件的情况下,对所述待播放视频流及所述待播放音频流进行同步播放,并基于所述展示时间展示所述待展示字幕。4.根据权利要求1所述的直播数据处理方法,其特征在于,还包括:根据所述识别文本的文本长度和/或文本语义,确定所述识别文本的文本类型;相应地,所述将所述识别文本作为字幕信息,并将所述字幕信息及所述时间间隔信息添加至所述第一视频流,包括:根据所述生成时间确定所述第一视频流中的目标视频帧;将所述识别文本作为字幕信息,并将所述字幕信息、所述时间间隔信息及所述文本类型作为所述目标视频帧的视频帧信息,添加至所述第一视频流。5.根据权利要求4所述的直播数据处理方法,其特征在于,所述客户端对所述待推送直播流进行解码,生成对应的音频流、视频流,以及所述视频流中目标视频帧的视频帧信息,其中,所述视频帧信息包括所述字幕信息、所述时间间隔信息及所述文本类型;在确定所述文本类型为目标类型的情况下,根据所述目标视频帧的播放时间以及所述时间间隔信息,确定所述字幕信息的展示时间;根据所述展示时间确定所述视频流中,用于展示所述字幕信息的至少两帧视频帧,其中,所述至少两帧视频帧的播放时间早于所述目标视频帧的播放时间;在确定满足所述待推送直播流的播放条件的情况下,对所述视频流及所述音频流进行同步播放,并基于所述展示时间,在所述至少两帧视频帧及所述目标视频帧中展示所述字幕信息。6.根据权利要求1所述的直播数据处理方法,其特征在于,还包括:根据所述音频流对应的频谱信息,对所述音频流进行划分,生成至少两个音频片段;相应地,所述对所述音频流进行语音识别,生成对应的识别文本,并确定所述识别文本
的生成时间与所述音频流的接收时间之间的时间间隔信息,包括:对目标音频片段进行语音识别,生成对应的识别文本,其中,所述目标音频片段为所述至少两个音频片段之一;确定所述识别文本的生成时间,并确定所述生成时间与所述目标音频片段的接收时间之间的时间间隔信息。7.根据权利要求1所述的直播数据处理方法,其特征在于,对所述音频流进行语音识别,生成对应的识别文本,并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息,包括:按照预设识别窗口对所述音频流进行拆分,生成至少一个音频片段;对目标音频片段进行语音识别,生成对应的识别文本,其中,所述目标音频片段为所述至少一个音频片段之一;确定所述识别文本的生成时间,并确定所述生成时间与所述音频流的接收时间之间的时间间隔信息。8.根据权利要求1所述的直播数据处理方法,其特征在于,所述对接收的初始直播流进行解码,生成音频流及第一视频流,包括:通过转码模块对接收的初始直播流进行解码,生成音频流及第一视频流;相应地,所述对所述音频流进行语音识别,生成对应的识别文本,包括:通过语音识别服务模块对所述音频流进行语音识别,生成对...

【专利技术属性】
技术研发人员:汤然姜军郑龙刘永明
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1