基于人工智能芯片的视频播放方法、编码方法及相关装置制造方法及图纸

技术编号:37507939 阅读:19 留言:0更新日期:2023-05-07 09:46
本申请涉及人工智能芯片领域,具体涉及一种基于人工智能芯片的视频播放方法、编码方法及相关设备,其中,对于视频的每帧图像,构建对应的音频索引图像,并建立音频索引图像中多个区域与多个音频信号的映射关系,使得在播放该视频时,可以基于音频索引图像中多个区域与多个音频信号的映射关系确定用户针对视频图像中的感兴趣的对象所占据区域对应的音频信号,从而实现用户可以选择播放自己感兴趣对象的音频,提升了用户体验。提升了用户体验。提升了用户体验。

【技术实现步骤摘要】
基于人工智能芯片的视频播放方法、编码方法及相关装置


[0001]本申请涉及人工智能芯片领域,尤其涉及一种基于人工智能芯片视频播放方法、编码方法及相关装置。

技术介绍

[0002]人工智能芯片,也被称为AI加速器或计算卡,是指专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责)。比如视频处理领域。
[0003]随着视频内容的丰富性,单个音频无法承载视频内容的表达。在目前火热的短视频领域,短短的十几秒中,单音频无法满足图像内容信息的表达。比如:正常录制的视频中有多个人,其中只有一个人在说话,而其他人此时的内心感受是无法通过音频表达的。

技术实现思路

[0004]本申请实施例提供一种基于人工智能芯片的视频播放方法、编码方法及相关装置,有利于解决上述技术问题。
[0005]第一方面,本申请实施例提供一种基于人工智能芯片的视频播放方法,包括:
[0006]获取第一图像及与第一图像对应的音频索引图像,音频索引图像包括多个第一区域,多个第一区域分别与多个音频信号对应,多个第一区域分别与第一图像中的多个对象对应,第一图像为视频中的任一帧;获取多个音频片段,多个音频片段分别为多个音频信号中的第一时间段对应的部分;第一时间段为第一图像在视频中对应的时间段;从第一图像中的多个对象获取第一图像的目标对象,第一图像的目标对象为第一图像的多个对象中用户感兴趣的对象;根据第一图像的目标对象从多个音频片段中确定出目标音频片段,目标音频片段为多个音频片段中第二区域对应的音频片段,第二区域为第一图像对应的音频索引图像的多个第一区域中,与第一图像的目标对象相对应的区域,第二图像的时间戳在第一图像的时间戳之前;播放第一图像和目标音频片段。
[0007]在此需要指出的是,多个第一区域分别与多个音频信号对应可以是多个第一区域分别与多个音频信号一一对应,也可以是部分一一对应,部分一对多或者多对一,或者说第一区域的数量与音频信号的数量可以相同,也可以不相同。
[0008]通过引入视频帧的音频索引图像,音频索引图像与多个音频信号具有映射关系;在播放视频时,播放器可以确定用户的感兴趣区域,然后通过音频索引图像确定感兴趣区域对应的音频信号,从而实现针对一个视频,可以基于用户选择播放感兴趣对象的音频信号,提高了用户的体验。
[0009]在一个可行的实施例中,音频索引图像包括多个第一区域中,每个第一区域内的像素值均相同,且任意两个第一区域内的像素值不相同;多个第一区域的像素值分别用于指示多个音频信号。
[0010]在一个可行的实施例中,根据第一图像的目标对象多个音频片段中确定出目标音频片段,包括:
[0011]根据第一图像的目标对象从多个第一区域中确定目标对象对应的第一区域;获取目标对象对应的第一区域内的像素值;将目标对象对应的第一区域内的像素值所指示的音频信号第一时间段对应的音频片段确定为目标音频片段。
[0012]在一个可行的实施例中,从第一图像中的多个对象确定第一图像的目标对象,包括:
[0013]在检测用户针对第一图像的多个对象中第一对象的操作指令后,确定第一对象为第一图像的目标对象;
[0014]或者,
[0015]获取第一图像中用户的人眼关注区域,将用户的人眼关注区域包括的对象确定为第一图像的目标对象。
[0016]在一个可行的实施例中,第一图像的尺寸与第一图像对应的音频索引图像的尺寸相等,或者第一图像对应的音频索引图像的尺寸小于第一图像的尺寸。
[0017]在一个可行的实施例中,获取第一图像及与第一图像对应的音频索引图像,包括:
[0018]从解码设备中获取第一图像及与第一图像对应的音频索引图像;或者,
[0019]从第一码流中解码出第一图像及与第一图像对应的音频索引图像;
[0020]获取多个音频片段,包括:
[0021]从解码设备中获取多个音频片段;或者,
[0022]从第二码流中解码出多个音频片段;或者,
[0023]从第二码流中解码得到多个音频信号,从多个音频信号中获取多个音频片段。
[0024]第二方面,本申请实施例提供一种基于人工智能芯片的视频编码方法,包括:
[0025]获取第一图像;根据第一图像构建第一图像对应的音频索引图像,该音频索引图像包括多个第一区域,多个第一区域分别与多个音频信号对应,多个第一区域分别与第一图像中的多个对象对应;第一图像为视频中的任一帧;对第一图像、第一图像对应的音频索引图像进行编码,以得到第一码流。
[0026]在一个可行的实施例中,根据第一图像构建第一图像对应的音频索引图像,包括:
[0027]对第一图像进行识别,以得到第一图像的多个对象;根据第一图像的多个对象将第一图像划分为多个第三区域;根据多个第三区域生成第一图像的音频索引图像,音频索引图像包括多个第一区域,多个第一区域与多个对象对应,多个第一区域与多个第三区域对应。
[0028]在一个可行的实施例中,第一图像对应的音频索引图像包括的多个第一区域中,每个第一区域内的像素值均相同,且任意两个第一区域中的像素值不相同;每个第一区域内的像素值用于指示该第一区域对应的音频信号。
[0029]在一个可行的实施例中,第一图像的尺寸与第一图像对应的音频索引图像的尺寸相同,或者,第一图像对应的音频索引图像的尺寸小于第一图像的尺寸。
[0030]在一个可行的实施例中,本申请的方法还包括:
[0031]对多个音频信号进行编码,以得到第二码流。
[0032]在此需要指出的是,第一码流和第二码流可以是同一码流,也可以是不同的码流。
[0033]第三方面,本申请实施例提供一种播放器,包括:
[0034]获取单元,用于获取第一图像及与第一图像对应的音频索引图像,音频索引图像
包括多个第一区域,多个第一区域分别与多个音频信号对应,多个第一区域分别与第一图像中的多个对象对应,第一图像为视频中的任一帧;获取多个音频片段,多个音频片段分别为多个音频信号中的第一时间段对应的部分;第一时间段为第一图像在视频中对应的时间段;
[0035]确定单元,用于从第一图像中的多个对象确定第一图像的目标对象,第一图像的目标对象为第一图像的多个对象中用户感兴趣的对象;根据第一图像的目标对象从多个音频片段中确定出目标音频片段,目标音频片段为多个音频片段中第二区域对应的音频片段,第二区域为第一图像对应的音频索引图像的多个第一区域中,与第一图像的目标对象相对应的区域,第二图像的时间戳在第一图像的时间戳之前;
[0036]播放单元,用于播放第一图像和目标音频片段。
[0037]在一个可行的实施例中,音频索引图像包括多个第一区域中,每个第一区域内的像素值均相同,且任意两个第一区域内的像素值不相同;多个第一区域的像素值分别用于指示多个音频信号。
[0038]在一个可行的实施例中,在根据第一图像的目标对象多个音频片段中确定出目标音频片段的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能芯片的视频播放方法,其特征在于,包括:获取第一图像及与所述第一图像对应的音频索引图像,所述音频索引图像包括多个第一区域,所述多个第一区域分别与多个音频信号对应,所述多个第一区域分别与所述第一图像中的多个对象对应,所述第一图像为所述视频中的任一帧;获取多个音频片段,所述多个音频片段分别为所述多个音频信号中的第一时间段对应的部分;所述第一时间段为所述第一图像在所述视频中对应的时间段;从所述第一图像中的多个对象确定第一图像的目标对象,所述第一图像的目标对象为所述第一图像的多个对象中用户感兴趣的对象;根据所述第一图像的目标对象从所述多个音频片段中确定出目标音频片段,所述目标音频片段为所述多个音频片段中第二区域对应的音频片段,所述第二区域为所述第一图像对应的音频索引图像的多个第一区域中,与所述第一图像的目标对象相对应的区域,所述第二图像的时间戳在所述第一图像的时间戳之前;播放所述第一图像和所述目标音频片段。2.根据权利要求1所述的方法,其特征在于,所述音频索引图像包括多个第一区域中,每个第一区域内的像素值均相同,且任意两个第一区域内的像素值不相同;所述多个第一区域的像素值分别用于指示所述多个音频信号。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一图像的目标对象从所述多个音频片段中确定出目标音频片段,包括:根据所述第一图像的目标对象从多个第一区域中确定所述目标对象对应的第一区域;获取所述目标对象对应的第一区域内的像素值;将所述目标对象对应的第一区域内的像素值所指示的音频信号第一时间段对应的音频片段确定为所述目标音频片段。4.根据权利要求3所述的方法,其特征在于,所述从所述第一图像中的多个对象确定第一图像的目标对象,包括:在检测用户针对所述第一图像的多个对象中第一对象的操作指令后,确定所述第一对象为所述第一图像的目标对象;或者,获取所述第一图像中所述用户的人眼关注区域,将所述用户的人眼关注区域包括的对象确定为所述第一图像的目标对象。5.根据权利要求1

4任一项所述的方法,其特征在于,所述第一图像的尺寸与所述音频索引图像的尺寸相等,或者所述音频索引图像的尺寸小于所述第一图像的尺寸。6.根据权利要求1

5任一项所述的方法,其特征在于,所述获取第一图像及与所述第一图像对应的音频索引图像,包括:从解码设备中获取所述第一图像及与所述第一图像对应的音频索引图像;或者,从第一码流中解码出所述第一图像及与所述第一图像对应的音频索引图像;所述获取多个音频片段,包括:从所述解码设备中获取所述多个音频片段;或者,从第二码流中解码出所述多个音频片段;或者,从所述第二码流中解码得到所述多个音频信号,从所述多个音频信号中获取所述多个
音频片段。7.一种基于人工智能芯片的视频编码方法,其特征在于,包括:获取第一图像,根据所述第一图像构建所述第一图像对应的音频索引图像,所述音频索引图像包括多个第一区域,所述多个第一区域分别与多个...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:寒武纪昆山信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1