音视频同步方法和装置制造方法及图纸

技术编号:26386247 阅读:32 留言:0更新日期:2020-11-19 23:55
本申请公开了一种音视频同步方法和装置,其中方法包括:对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。采用本发明专利技术,可以有效解决音视频不同步问题。

【技术实现步骤摘要】
音视频同步方法和装置
本专利技术涉及计算机应用技术,特别是涉及一种音视频同步方法和装置。
技术介绍
在视频播放领域,音频和视频的同步播放是保障用户观看体验的关键技术之一。目前的音视频同步方案中,通常是根据视频帧和音频帧的显示时间戳进行音视频的同步,将具有相同显示时间戳(PTS)的视频和音频关联在一起播放,以达到同步的目的。专利技术人在实现本专利技术的过程中,在上述现有方案实际使用过程中仍然存在音频和视频不同步的问题,通过对现有方案认真研究分析后发现具体原因如下:上述现有方案是依据视频帧和音频帧的PTS是否相同,来触发同步操作的执行,即当视频帧(或音频帧)没有关联到具有相同PTS的对应帧时,才会设法确保它们对应具有相同PTS的音频帧(或视频帧),以实现视频帧和音频帧的同步播放。而在实际应用中,在某些场景下会存在:视频本身就有声音和画面不同步的问题,即具有相同PTS的视频帧和音频帧本身在内容上就是不同步的。例如,当视频采集设备和音频采集设备相距较远时,会由于各自参考的系统时间不一致而导致:本应同步播放的视频帧和音频帧具有不同的显示时间戳,相应的,具有相同显示时间戳的视频帧和音频帧实际上是不应同步播放的,从而出现了上述视频本身的声音和画面不同步问题。比如,当电视台实时转播外国电台的实况节目时,此时如果只需要外国电台的画面,同步播放的声音是本台主持人的声音,此时就可能会存在待播放视频本身的声音和画面不同步问题。再如另外一种视频录制场景,该场景下视频录制设备在录制视频时需要同时执行其他视频处理操作(如画面美化),这样就会使得视频采集时延相比于音频采集时延大很多,此时,也会容易出现上述视频本身的声音和画面不同步问题。上述问题存在时,同时播放的声音和画面虽然在实际内容方面是错位的,但是由于具有相同的显示时间戳,使得上述现有方案,会将这种情况视频为正常的同步,因此,采用上述现有方法无法检测出上述音视频不同步问题的存在,进而也无法解决该问题。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种音视频同步方法和装置,可以有效解决音视频不同步的问题。为了达到上述目的,本专利技术提出的技术方案为:一种音视频同步方法,包括:对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。较佳的,所述对于视频中的每个视频帧,确定该视频帧对应的语义包括:对于视频中的每个视频帧,采用预设的视频分类模型,确定该视频帧对应的视频类型;所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频;如果所确定的视频类型为适用于唇语识别的视频,则采用预设的唇语识别网络模型,生成所述视频帧的语义文本信息;如果所确定的视频类型为适用于画面整体识别的视频,则采用预设的视频分析网络模型,生成所述视频帧的语义文本信息;将所述语义文本信息转化为相应的语义向量。较佳地,所述对于视频中的每个音频段,确定该音频段对应的语义包括:对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。较佳地,所述方法进一步包括:确定所述视频中具有相同语义的每对音频段和视频帧,具体包括:对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。较佳地,所述从所述视频中查找与该音频段Mi语义相匹配的一个视频帧包括:在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,△t为预设的范围调整参数,所述PTSi为该音频段Mi的PTS。一种音视频同步装置,包括:语义分析模块,用于对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;同步模块,用于对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。较佳地,语义分析模块,具体用于对于视频中的每个视频帧,确定该视频帧对应的语义,包括:对于视频中的每个视频帧,采用预设的视频分类模型,确定该视频帧对应的视频类型;所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频;如果所确定的视频类型为适用于唇语识别的视频,则采用预设的唇语识别网络模型,生成所述视频帧的语义文本信息;如果所确定的视频类型为适用于画面整体识别的视频,则采用预设的视频分析网络模型,生成所述视频帧的语义文本信息;将所述语义文本信息转化为相应的语义向量。较佳地,所述语义分析模块,具体用于对于视频中的每个音频段,确定该音频段对应的语义,具体包括:对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。较佳地,所述同步模块,进一步用于确定所述视频中具有相同语义的每对音频段和视频帧,具体包括:对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。较佳地,所述同步模块,具体用于从所述视频中查找与该音频段Mi语义相匹配的一个视频帧,包括:在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,△t为预设的范围调整参数,所述PTSi为该音频段Mi的PTS。本申请还公开了一种音视频同步装置,包括:语义分析模块,用于对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;同步模块,用于对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。较佳的,所述语义分析模块,具体用于对于视频中的每个视频帧,采用预设的视频语义分析网络模型,生成该视频帧的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量;对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息本文档来自技高网
...

【技术保护点】
1.一种音视频同步方法,其特征在于,包括:/n对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;/n对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。/n

【技术特征摘要】
1.一种音视频同步方法,其特征在于,包括:
对于视频中的每个视频帧,确定该视频帧对应的语义;对于所述视频中的每个音频段,确定该音频段对应的语义;其中,一个音频段的时长和一个视频帧对应的采样时长相同;
对于所述视频中具有相同语义的每对音频段和视频帧,判断该对音频段和视频帧是否具有相同的显示时间戳PTS,如果不相同,则采用预设的PTS调整方式,使得该对音频段和视频帧具有相同的PTS。


2.根据权利要求1所述的方法,其特征在于,所述对于视频中的每个视频帧,确定该视频帧对应的语义包括:
对于视频中的每个视频帧,采用预设的视频分类模型,确定该视频帧对应的视频类型;所述视频类型包括适用于唇语识别的视频和适用于画面整体识别的视频;
如果所确定的视频类型为适用于唇语识别的视频,则采用预设的唇语识别网络模型,生成所述视频帧的语义文本信息;如果所确定的视频类型为适用于画面整体识别的视频,则采用预设的视频分析网络模型,生成所述视频帧的语义文本信息;
将所述语义文本信息转化为相应的语义向量。


3.根据权利要求1所述的方法,其特征在于,所述对于视频中的每个音频段,确定该音频段对应的语义包括:
对于视频中的每个音频段,采用预设的音频语义分析网络模型,生成该音频段的语义文本信息,并将所生成的语义文本信息转化为相应的语义向量。


4.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:确定所述视频中具有相同语义的每对音频段和视频帧,具体包括:
对于每个所述音频段Mi,根据该音频段Mi的语义,从所述视频中查找与该音频段Mi语义匹配的一个视频帧,如果查找成功,则确定该音频段Mi与所查找到的视频段具有相同语义。


5.根据权利要求4所述的方法,其特征在于,所述从所述视频中查找与该音频段Mi语义相匹配的一个视频帧包括:
在所述视频中的预设视频帧范围内,查找与该音频段Mi语义匹配的一个视频帧;所述视频帧范围为PTS大于等于PTSi-△t且小于等于PTSi+△t的所有视频帧,△t为预设的范围调整参数,所述PTSi为该音频段Mi的PTS。


6.一种音视频同步装置,其特征在于,包括:<...

【专利技术属性】
技术研发人员:毕建华范健康刘春华宋杰
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1