直播字幕生成方法及装置和服务端、直播客户端及直播系统制造方法及图纸

技术编号：32429713 阅读：23 留言：0更新日期：2022-02-24 18:37

本申请公开了一种直播字幕生成方法及装置和服务端、直播客户端及直播系统，巧妙地利用直播本身的时间差，利用直播视频的传输过程，同时对直播音频进行处理以快速生成对应的字幕，保证了生成的字幕的准确度和实时性。保证了生成的字幕的准确度和实时性。保证了生成的字幕的准确度和实时性。

全部详细技术资料下载

【技术实现步骤摘要】
直播字幕生成方法及装置和服务端、直播客户端及直播系统

[0001]本申请涉及但不限于语音识别技术，尤指一种直播字幕生成方法及装置和服务端、直播客户端及直播系统。

技术介绍

[0002]直播经常会有字幕需求，甚至还会有字幕翻译(外文字幕)需求。
[0003]为了保证字幕的准确度，需要速记员和同声传译这样的全人工实时字幕如中英文字幕输入来实现直播中字幕的生成。这种方式虽然能更好地保证生成的字幕的准确性，但是实时性不能满足直播的需求。
[0004]在一些相关技术中，也可以使用语音识别技术自动为用户的视频生成字幕，但是，不能保证生成的字幕的准确度，特别是对于直播场景，机器语音识别技术的准确率还有待提高。

技术实现思路

[0005]本申请提供一种直播字幕生成方法及装置和服务端、直播客户端及直播系统，能够保证生成的字幕的准确度和实时性。
[0006]本专利技术实施例提供了一种直播字幕生成方法，包括：
[0007]服务端将采集到的直播视频推送给接收端，并对采集到的直播音频进行语音识别获得语音识别结果；
[0008]根据语音识别结果生成直播视频的字幕；
[0009]将生成的字幕推送给接收端，以使所述接收端对所述直播视频和所述字幕进行组合得到带字幕的直播视频。
[0010]在一种示例性实例中，所述将采集到的直播视频推送给接收端，包括：
[0011]通过内容分发网络CDN将所述采集到的直播视频推送给所述接收端。
[0012]在一种示例性实例中，所述将...

【技术保护点】

【技术特征摘要】
1.一种直播字幕生成方法，包括：服务端将采集到的直播视频推送给接收端，并对采集到的直播音频进行语音识别获得语音识别结果；根据语音识别结果生成直播视频的字幕；将生成的字幕推送给接收端，以使所述接收端对所述直播视频和所述字幕进行组合得到带字幕的直播视频。2.根据权利要求1所述的直播字幕生成方法，其中，所述将采集到的直播视频推送给接收端，包括：通过内容分发网络CDN将所述采集到的直播视频推送给所述接收端。3.根据权利要求1所述的直播字幕生成方法，所述将生成的字幕推送给接收端之前，还包括：根据预先设置的重要词语或历史校准结果，对所述生成的直播视频的字幕进行校准。4.根据权利要求1或3所述的直播字幕生成方法，其中，所述语音识别结果的每个音节包括一个或多个识别结果；所述根据语音识别结果生成直播视频的字幕，包括：对于包括一个识别结果的音节，将该识别结果作为该音节的语音识别结果；对于包括多个识别结果的音节，将概率最大的识别结果作为该音节的语音识别结果，或者，手动选择一个识别结果作为该音节的语音识别结果；将确定的语音识别结果组成所述直播视频的字幕。5.根据权利要求1所述的直播字幕生成方法，所述方法还包括：将所述采集到的直播音频翻译成所需外文字幕；对生成的直播视频的外文字幕进行校准；所述将生成的字幕推送给接收端还包括：将生成的外文字幕推送给所述接收端。6.根据权利要求5所述的直播字幕生成方法，其中，所述将采集到的直播音频翻译成所需外文字幕，包括：基于所述直播音频的语音，翻译成所述所需外文；或者，基于所述语音识别结果翻译成所述所需外文。7.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求6任一项所述的直播字幕生成方法。8.一种实现直播字幕生成的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求6任一项所述的直播字幕生成方法的步骤。9.一种直播字幕生成方法，包括：接收端接收来自服务端的直播视频和字幕；基于时间戳同步接收到的直播视频和字幕，合并同步后的直播视频和字幕得到带字幕的视频；将得到的带字幕的视频展示给用户。10.根据权利要求9所述的直播字幕生成方法，当所述字幕晚于所述直播视频到达所述接收端，还包括：
所述接收端根据预先配置信息对接收到的字幕进行处理；其中，所述预先配置信息包括：丢弃所述字幕，或显示延迟到达的所述字幕。11.一种计算机可读存储介质，存储...

【专利技术属性】
技术研发人员：胡琨，叶婷，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人