基于连麦直播的线上合唱方法、装置及线上合唱系统制造方法及图纸

技术编号:39257530 阅读:8 留言:0更新日期:2023-10-30 12:09
本申请涉及一种基于连麦直播的线上合唱方法、装置及线上合唱系统;所述方法包括:接收至少两个连麦主播的音频信息和视频信息;对所述音频信息进行解析获取音频帧及其同步信息,以及对所述视频信息进行解析获取视频帧及其抠图信息;其中,所述同步信息包括语音音频帧时间戳及伴奏歌曲的伴奏进度;根据各个连麦主播的同步信息,分别将所述音频帧、视频帧与伴奏歌曲进行同步;根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像,并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据;该技术方案,实现了虚拟同台合唱互动效果,增强直播互动性,延迟低、同步性好,实现主播之间异地沉浸式共演音效果,提升了合唱演示效果。示效果。示效果。

【技术实现步骤摘要】
基于连麦直播的线上合唱方法、装置及线上合唱系统
[0001]本申请要求于2022年04月14日提交中国专利局、申请号为202210387980.X、专利技术名称为“网络直播的连麦互动方法、装置及直播系统”的中国专利申请的优先权,其申请文件内容通过引用结合在本申请中。


[0002]本申请涉及网络直播
,特别是一种基于连麦直播的线上合唱方法、装置及线上合唱系统。

技术介绍

[0003]目前,随着5G、云计算,人工智能技术的发展,各类设备的便携化,在线直播早已深入人们的各类生活,渗透到了游戏、娱乐和社交等领域,基于在线直播的数字音乐产业也蓬勃发展,例如在线KTV,特别是元宇宙概念的出现,在技术上已经逐步实现并形成了一定生态基础,元宇宙所带来的丰富的应用场景,前沿的技术创新,极大改变了人们当下的生活方式和习惯,基于元宇宙可以搭建虚拟的KTV舞台,并提供给异地用户之间的虚拟同台合唱和互动功能,促进了用户体验的全面升级。
[0004]当前线上合唱共演方案,主播和唱歌嘉宾连麦虚拟房间的情况下,唱歌嘉宾开唱,主播端通过虚拟房间对应的另一个虚拟房间接收唱歌嘉宾端发送的干声,主播端将干声和主播端的本地伴奏混合得到K歌混音,并生成面向观众的直播流;该技术方案的主播端通过两个有关联的虚拟房间,收集唱歌嘉宾K歌的干声并生成直播流,其功能仅限于音频互动,缺乏视频互动功能,且其混音功能在客户端实现,对终端的要求较高,当用户网络差异较大时,容易导致在终端做音频的同步比较困难。
[0005]另外,还有一种异地共演技术,利用远端摄影棚内远端场景实际拍摄的影像传送至云端服务器,再将远端摄影棚的实拍影像同步到显示装置进行颜色去背处理,并以平面3D的形式出现在本地摄影棚的本地扩增实境场景中,以达到异地共演,该技术方案在虚拟场景切换时两端需要相互等待,缺乏实时性,且远端和本地不能互动,观众端视觉效果差。
[0006]基于此,现有的线上合唱共演实现方案,缺乏虚拟互动特效,在不同主播之间进行异地共演的虚拟现实效果不足,应用于元宇宙的虚拟空间中,难以为用户提供沉浸式的应用体验。

技术实现思路

[0007]基于此,有必要针对上述至少一种技术缺陷,提供一种基于连麦直播的线上合唱方法、装置及视频处理系统,以提升基于连麦直播的线上合唱互动效果。
[0008]一种基于连麦直播的线上合唱方法,包括:
[0009]接收至少两个连麦主播的音频信息和视频信息;
[0010]对所述音频信息进行解析获取音频帧及其同步信息,以及对所述视频信息进行解析获取视频帧及其抠图信息;其中,所述同步信息包括语音音频帧时间戳及伴奏歌曲的伴
奏进度;
[0011]根据各个连麦主播的同步信息,分别将所述音频帧、视频帧与伴奏歌曲进行同步;
[0012]根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像,并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据。
[0013]在一个实施例中,所述抠图信息为与所述视频帧拼接的半透明通道图像;其中,所述半透明通道图像为对所述视频帧的人像图像预抠图得到。
[0014]在一个实施例中,根据各个连麦主播的同步信息,分别将所述音频帧、视频帧与伴奏歌曲进行同步,包括:
[0015]获取所述伴奏歌曲的伴奏视频帧和伴奏音频帧;
[0016]分别根据各个连麦主播的同步信息,将所述音频帧的语音音频帧时间戳与伴奏歌曲的伴奏音频帧时间戳进行同步;
[0017]分别根据各个连麦主播的同步信息,将所述音频帧的语音音频帧时间戳与所述视频帧的视频帧时间戳进行同步;
[0018]将所述伴奏视频帧对应的伴奏视频帧时间戳与伴奏音频帧对应的伴奏音频帧时间戳进行同步。
[0019]在一个实施例中,根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像,并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据,包括:
[0020]获取各个连麦主播的音频帧以及伴奏音频帧;
[0021]将所述音频帧和伴奏音频帧进行混音编码得到音频数据;
[0022]获取各个连麦主播的视频帧以及伴奏视频帧;
[0023]根据各个连麦主播的视频帧对应的抠图信息分别抠出人像图像;
[0024]将所述人像图像和伴奏视频帧进行合成并编码得到视频数据。
[0025]在一个实施例中,所述的基于连麦直播的线上合唱方法,还包括:对所述视频信息中的SEI信息进行解析获取所述视频帧对应的图像相关信息;其中,所述图像相关信息包括主播AI信息和主播特效信息。
[0026]在一个实施例中,将所述人像图像和伴奏视频帧进行合成并编码得到视频数据,包括:
[0027]获取所述伴奏视频帧以及所述主播特效信息对应的特效渲染素材;
[0028]以所述伴奏视频帧为背景图像,将各个连麦主播的人像图像绘制到所述背景图像上;
[0029]根据所述主播AI信息将所述特效渲染素材绘制到该连麦主播在所述背景图像上对应区域画面中;
[0030]输出合成图像并编码得到视频数据。
[0031]在一个实施例中,所述主播AI信息包括主播的人像关键点、人脸关键点、手势关键点、头部关键点中的一种或多种;所述主播特效信息包括开播特效和玩法礼物信息;
[0032]所述输出合成图像并编码得到视频数据之前,还包括:
[0033]获取各个连麦主播互动产生的互动特效,将所述互动特效渲染到所述背景图像上。
[0034]在一个实施例中,所述客户端包括主唱端和副唱端;
[0035]所述接收至少两个客户端上传的连麦主播的音频信息和视频信息之前,还包括:
[0036]接收主唱端发起的合唱请求,并广播合唱请求;其中,所述合唱请求包括请求发送时间、Uid和伴奏歌曲;
[0037]接收副唱端对所述合唱请求的响应信息,并启动合唱任务;
[0038]分别向所述主唱端和副唱端的客户端下发伴奏歌曲;其中,所述客户端将音频帧与伴奏歌曲的伴奏进度进行同步。
[0039]在一个实施例中,所述客户端根据所述请求发送时间计算主唱端和副唱端的伴奏启动时间,并根据所述启动时间启动播放所述伴奏歌曲。
[0040]在一个实施例中,所述的基于连麦直播的线上合唱方法,还包括:在直播过程中,接收所述主唱端定期发送的实时同步信息,将所述实时同步信息广播至各个副唱端的客户端,以使得各个副唱端的客户端对音频帧与伴奏歌曲的伴奏进度进行实时同步。
[0041]一种基于连麦直播的线上合唱装置,包括:
[0042]接收模块,用于接收至少两个客户端上传的连麦主播的音频信息和视频信息;
[0043]解析模块,用于对所述音频信息进行解析获取音频帧及其同步信息,以及对所述视频信息进行解析获取视频帧及其抠图信息;其中,所述同步信息包括语音音频帧时间戳及伴奏歌曲的伴奏进度;
[0044]同步模块,用于根据各个连麦主播的同步信息,分别将所述音频帧、视频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于连麦直播的线上合唱方法,其特征在于,包括:接收至少两个连麦主播的音频信息和视频信息;对所述音频信息进行解析获取音频帧及其同步信息,以及对所述视频信息进行解析获取视频帧及其抠图信息;其中,所述同步信息包括语音音频帧时间戳及伴奏歌曲的伴奏进度;根据各个连麦主播的同步信息,分别将所述音频帧、视频帧与伴奏歌曲进行同步;根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像,并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据。2.根据权利要求1所述的基于连麦直播的线上合唱方法,其特征在于,所述抠图信息为与所述视频帧拼接的半透明通道图像;其中,所述半透明通道图像为对所述视频帧的人像图像预抠图得到。3.根据权利要求1所述的基于连麦直播的线上合唱方法,其特征在于,根据各个连麦主播的同步信息,分别将所述音频帧、视频帧与伴奏歌曲进行同步,包括:获取所述伴奏歌曲的伴奏视频帧和伴奏音频帧;分别根据各个连麦主播的同步信息,将所述音频帧的语音音频帧时间戳与伴奏歌曲的伴奏音频帧时间戳进行同步;分别根据各个连麦主播的同步信息,将所述音频帧的语音音频帧时间戳与所述视频帧的视频帧时间戳进行同步;将所述伴奏视频帧对应的伴奏视频帧时间戳与伴奏音频帧对应的伴奏音频帧时间戳进行同步。4.根据权利要求3所述的基于连麦直播的线上合唱方法,其特征在于,根据各个连麦主播的抠图信息从相应的视频帧中抠出人像图像,并将所述音频帧、人像图像与伴奏歌曲进行合成得到合唱音视频数据,包括:获取各个连麦主播的音频帧以及伴奏音频帧;将所述音频帧和伴奏音频帧进行混音编码得到音频数据;获取各个连麦主播的视频帧以及伴奏视频帧;根据各个连麦主播的视频帧对应的抠图信息分别抠出人像图像;将所述人像图像和伴奏视频帧进行合成并编码得到视频数据。5.根据权利要求4所述的基于连麦直播的线上合唱方法,其特征在于,还包括:对所述视频信息中的SEI信息进行解析获取所述视频帧对应的图像相关信息;其中,所述图像相关信息包括主播AI信息和主播特效信息。6.根据权利要求5所述的基于连麦直播的线上合唱方法,其特征在于,将所述人像图像和伴奏视频帧进行合成并编码得到视频数据,包括:获取所述伴奏视频帧以及所述主播特效信息对应的特效渲染素材;以所述伴奏视频帧为背景图像,将各个连麦主播的人像图像绘制到所述背景图像上;根据所述主播AI信息将所述特效渲染素材绘制到该连麦主播在所述背景图像上对应区域画面中;输出合成图像并编码得到视频数据。7.根据权利要求6所述的基于连麦直播的线上合唱方法,其特征在于,将各个连麦主播
的人像图像绘制到所述背景图像上之前,还包括:获取各个人像图像的大小参数及背景图像大小分辨率;根据背景图像分辨率及人像图像的大小参数对各个人像图像进行归一化处理,得到图像大小相匹配的人像图像。8.根据权利要求6所述的基于连麦直播的线上合唱方法,其特征在于,所述主播AI信息包括主播...

【专利技术属性】
技术研发人员:赵国庆刘伟安李劲
申请(专利权)人:广州方硅信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1