直播数据处理方法及系统技术方案

技术编号：36459741 阅读：16 留言：0更新日期：2023-01-25 22:58

本申请实施例提供了直播数据处理方法及系统，其中，所述直播数据处理方法包括：对接收的初始直播流进行解码，生成音频流及第一视频流，对所述音频流进行语音识别，生成对应的识别文本，并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息，将所述识别文本作为字幕信息，并将所述字幕信息及所述时间间隔信息添加至所述第一视频流，生成第二视频流，对所述第二视频流及所述音频流进行编码，生成待推送直播流，并将所述待推送直播流返回至客户端。流返回至客户端。流返回至客户端。

全部详细技术资料下载

【技术实现步骤摘要】
直播数据处理方法及系统

[0001]本申请实施例涉及计算机
，特别涉及直播数据处理方法。本申请一个或者多个实施例同时涉及一种直播数据处理系统，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着直播音视频行业的快速发展，利用现有数据流传输的技术，对高清画质、低延时、声画同步等要求已经优化到了极致，然而用户的需求并不满足于此。
[0003]在一些特殊场景中，比如大型体育赛事、大型会议报告、在线教育培训等，都需要对直播进行实时翻译并添加语言字幕。由于字幕需要先对直播流进行录像，然后提取音频流，人工或机器翻译后烧录到视频中，在重报时可以显示字幕。但这种处理方式无法给语言不通或者存在听觉障碍的受众群体带来直播效果。现有虽然已开发出直播实时生成字幕的技术，比如直播弹幕，但是该技术存在一些缺陷，例如，字幕和声音不同步，时而超前时而延后，受众群体的体验感及其不佳，无法满足其需求。因此，亟需一种有效的方法以解决此类问题。

技术实现思路

[0004]有鉴于此，本申请实施例提供了直播数据处理方法。本申请一个或者多个实施例同时涉及直播数据处理装置，一种直播数据处理系统，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的生成直播字幕的成本高、效率低以及字幕存在延迟的技术缺陷。
[0005]根据本申请实施例的第一方面，提供了一种直播数据处理方法，包括：
[0006]对接收的初始直播流进行解码，生成音频流及第一视频流；
[0007]对所述音频流进行语音识别，生...

【技术保护点】

【技术特征摘要】
1.一种直播数据处理方法，其特征在于，包括：对接收的初始直播流进行解码，生成音频流及第一视频流；对所述音频流进行语音识别，生成对应的识别文本，并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息；将所述识别文本作为字幕信息，并将所述字幕信息及所述时间间隔信息添加至所述第一视频流，生成第二视频流；对所述第二视频流及所述音频流进行编码，生成待推送直播流，并将所述待推送直播流返回至客户端。2.根据权利要求1所述的直播数据处理方法，其特征在于，所述对接收的初始直播流进行解码，包括：确定所述客户端缓存的待播放直播流，并确定所述待播放直播流对应的生成时间；根据所述待播放直播流对应的直播流标识及所述生成时间，获取预设时间区间内、所述直播流标识对应的初始直播流，并对所述初始直播流进行解码，其中，所述预设时间区间晚于所述生成时间。3.根据权利要求2所述的直播数据处理方法，其特征在于，所述客户端对所述待播放直播流进行解码，生成对应的待播放音频流、待播放视频流、待展示字幕以及所述待展示字幕对应的展示时间；在确定满足所述待播放直播流的播放条件的情况下，对所述待播放视频流及所述待播放音频流进行同步播放，并基于所述展示时间展示所述待展示字幕。4.根据权利要求1所述的直播数据处理方法，其特征在于，还包括：根据所述识别文本的文本长度和/或文本语义，确定所述识别文本的文本类型；相应地，所述将所述识别文本作为字幕信息，并将所述字幕信息及所述时间间隔信息添加至所述第一视频流，包括：根据所述生成时间确定所述第一视频流中的目标视频帧；将所述识别文本作为字幕信息，并将所述字幕信息、所述时间间隔信息及所述文本类型作为所述目标视频帧的视频帧信息，添加至所述第一视频流。5.根据权利要求4所述的直播数据处理方法，其特征在于，所述客户端对所述待推送直播流进行解码，生成对应的音频流、视频流，以及所述视频流中目标视频帧的视频帧信息，其中，所述视频帧信息包括所述字幕信息、所述时间间隔信息及所述文本类型；在确定所述文本类型为目标类型的情况下，根据所述目标视频帧的播放时间以及所述时间间隔信息，确定所述字幕信息的展示时间；根据所述展示时间确定所述视频流中，用于展示所述字幕信息的至少两帧视频帧，其中，所述至少两帧视频帧的播放时间早于所述目标视频帧的播放时间；在确定满足所述待推送直播流的播放条件的情况下，对所述视频流及所述音频流进行同步播放，并基于所述展示时间，在所述至少两帧视频帧及所述目标视频帧中展示所述字幕信息。6.根据权利要求1所述的直播数据处理方法，其特征在于，还包括：根据所述音频流对应的频谱信息，对所述音频流进行划分，生成至少两个音频片段；相应地，所述对所述音频流进行语音识别，生成对应的识别文本，并确定所述识别文本
的生成时间与所述音频流的接收时间之间的时间间隔信息，包括：对目标音频片段进行语音识别，生成对应的识别文本，其中，所述目标音频片段为所述至少两个音频片段之一；确定所述识别文本的生成时间，并确定所述生成时间与所述目标音频片段的接收时间之间的时间间隔信息。7.根据权利要求1所述的直播数据处理方法，其特征在于，对所述音频流进行语音识别，生成对应的识别文本，并确定所述识别文本的生成时间与所述音频流的接收时间之间的时间间隔信息，包括：按照预设识别窗口对所述音频流进行拆分，生成至少一个音频片段；对目标音频片段进行语音识别，生成对应的识别文本，其中，所述目标音频片段为所述至少一个音频片段之一；确定所述识别文本的生成时间，并确定所述生成时间与所述音频流的接收时间之间的时间间隔信息。8.根据权利要求1所述的直播数据处理方法，其特征在于，所述对接收的初始直播流进行解码，生成音频流及第一视频流，包括：通过转码模块对接收的初始直播流进行解码，生成音频流及第一视频流；相应地，所述对所述音频流进行语音识别，生成对应的识别文本，包括：通过语音识别服务模块对所述音频流进行语音识别，生成对...

【专利技术属性】
技术研发人员：汤然，姜军，郑龙，刘永明，
申请(专利权)人：上海哔哩哔哩科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人