本发明专利技术使得能够容易地获取对应于宽视角图像的固定位置的音频输出。发送装置设置有用于发送空间音频数据和给定数量的登记视点的信息的发送器。例如,空间音频数据是基于场景的音频数据。另外,基于场景的音频数据可以表示HoA格式的每个分量。此外,视点信息可以包括表示视点位置的方位角(方位角信息)和仰角(仰角信息)。例如,发送器在对象音频的包中发送基于场景的音频数据和给定数量的登记视点的信息。
【技术实现步骤摘要】
【国外来华专利技术】发送装置、发送方法、处理装置以及处理方法
本技术涉及发送装置、发送方法、处理装置以及处理方法,并且更具体地,涉及发送基于场景的音频等的数据的发送装置。
技术介绍
使用为宽视角提供的反射镜、透镜等捕获宽视角图像。在发送宽视角图像的运动图像数据的情况下,在接收侧,当在宽视角图像的固定位置处的图像被截取并显示时,还考虑使用立体声再现方法将语音输出互锁。作为立体声再现方法,基于场景的方法是已知的。非专利文献1描述了高保真度立体声响复制(基于场景的音频)。引用列表非专利文献非专利文献1:RyuichiNishimura,“高保真度立体声响复制”,图像信息和电视工程师协会杂志,第68卷,第8期,第616至620页(2014年)
技术实现思路
本专利技术要解决的问题本技术的目的是使得能够容易地获取对应于宽视角图像的固定位置的语音输出。问题的解决方案根据本技术的一方面,一种发送装置包括发送单元,被配置为发送空间语音数据和关于预定数量的登记视点的信息。在本技术中,处理单元发送空间语音数据和关于预定数量的登记视点的信息。例如,关于视点的信息可以包括关于指示该视点的位置的方位角(方位角信息)和仰角(仰角信息)的信息。例如,空间语音数据可以是基于场景的音频数据。在这种情况下,例如,基于场景的音频的数据可以是HoA格式的每个分量。例如,发送单元可以将基于场景的音频的数据和关于预定数量的登记视点的信息包括在对象音频的包中以进行发送。在这种情况下,例如,对象音频的包可以是MPEG-H音频流包。此外,在这种情况下,例如,发送单元可以将对象音频的包包括在ISOBMFF的容器中以进行发送。以这种方式,在本技术中,发送空间语音数据和关于预定数量的登记视点的信息。因此,在接收侧,可以容易地获取与宽视角图像的固定位置相对应的语音输出。注意,在本技术中,例如,可以对关于预定数量的登记视点的信息进行分组。以这种方式,通过在接收侧对信息进行分组,可以针对每个预期目的或每个用户获取对应于宽视角图像的固定位置的语音输出。此外,根据本技术的另一方面,一种处理装置包括:获取单元,被配置为获取空间语音数据和关于预定数量的登记视点的信息;以及处理单元,被配置为通过基于关于登记视点的信息处理空间语音数据来获取输出语音数据。在本技术中,通过获取单元获取空间语音数据和关于预定数量的登记视点的信息。例如,空间语音数据可以是基于场景的音频数据。在这种情况下,例如,基于场景的音频的数据可以是HoA格式的每个分量。然后,处理单元通过基于关于登记视点的信息处理空间语音数据来获取输出语音数据。例如,获取单元接收基于场景的音频的数据和关于预定数量的登记视点的信息,或者通过从媒体再现来获取基于场景的音频的数据和关于预定数量的登记视点的信息。此外,例如,获取单元可以从接收到的对象音频的包中获取基于场景的音频的数据和关于预定数量的登记视点的信息。在这种情况下,例如,对象音频的包可以是MPEG-H音频流包。此外,例如,获取单元可以从被配置为通过基于视点信息处理宽视角图像的图像数据来获取显示图像数据的视频处理系统获取关于预定数量的登记视点的信息。以这种方式,在本技术中,获取基于场景的音频的数据和关于预定数量的登记视点的信息,并且通过基于关于登记视点的信息处理基于场景的音频的数据来获取输出语音数据。由此,能够容易地获取与宽视角图像的固定位置对应的语音输出。注意,在本技术中,例如,可以对预定数量的登记视点信息进行分组,并且处理单元可以使用基于用户属性或合同内容确定的组的视点信息。在这种情况下,可以以获取对应于用户的属性或合同内容的语音输出的方式执行限制。此外,在本技术中,例如,还可以包括被配置为对通知用户当前视点的位置与由关于登记视点的信息指示的位置之间的关系进行控制的控制单元。在这种情况下,用户可以容易地将当前视点的位置移动到由关于登记视点的信息指示的位置。本专利技术的效果根据本技术,可以容易地获取对应于宽视角图像的固定位置的语音输出。注意,这里描述的效果不一定是限制性的,并且可以是本公开中描述的任何效果。附图说明[图1]是示出基于MPEG-DASH的流传输系统的配置示例的框图。[图2]是示出在MPD文件中分级布置的结构之间的关系的示例的图。[图3]是示出根据实施例的发送和接收系统的配置示例的框图。[图4]是示意性地示出发送和接收系统的整个系统的配置示例的图。[图5]是用于描述用于从球面表面捕获图像获取投影画面的平面包装的图。[图6]是示出HEVC编码中的SPSNAL单元的结构示例的图。[图7]是用于描述使截取位置的中心O(p,q)与投影画面的参考点RP(x,y)一致的图。[图8]是示出渲染元数据的结构示例的图。[图9]是示出图8所示的结构示例的主要信息的内容的图。[图10]是用于描述图8所示的结构示例中的每一条信息的图。[图11]是示出“video_viewpoint_grid()”的结构示例的图。[图12]是示出图11所示的结构示例的主要信息的内容的图。[图13]是用于描述作为登记视点的视点网格的图。[图14]是用于描述视点网格的位置的图。[图15]是用于描述按类别对视点网格进行分组的示例的图。[图16]是示出图15所示的分组中的组1到3的用户的显示示例的图。[图17]是示出视点网格的类别和子类别的具体示例的图。[图18]是示出在MPEG-H3D音频的发送数据中的音频帧的结构示例的图。[图19]是示出“audio_viewpoint_grid()”的结构示例的图。[图20]是示出图19所示的结构示例的主要信息的内容的图。[图21]是示出作为传输流的视频MP4流的示例的图。[图22]是示出与MP4流相对应的MPD文件的描述示例的图。[图23]是示出在使用HMD和HMD扬声器观看和收听的情况下的示例的图。[图24]是示出在使用HMD和房间扬声器观看和收听的情况下的示例的图。[图25]是示出在使用诸如TV和房间扬声器的显示面板观看和收听的情况下的示例的图。[图26]是示出音频解码器和音频渲染器的特定配置示例的图。[图27]是用于描述将对应于观察点位置的HoA分量“W、X、Y和Z”转换为HoA分量“W”、X”、Y”和Z””的处理的图。[图28]是用于描述被转换为经布置为围绕收听者的预定数量的扬声器的驱动信号的HoA分量“W”、X”、Y”和Z””的图。[图29]是示出服务发送系统的配置示例的框图。[图30]是示出服务接收装置的配置示例的框图。具体实施方式在下文中,对实施本专利技术的方式(在下文中,称之为实施例)进行描述。注意,将按以下顺序给出描述。1.实施例2.变型例<1.实施例&g本文档来自技高网...
【技术保护点】
1.一种发送装置,包括:/n发送单元,被配置为发送空间语音数据和关于预定数量的登记视点的信息。/n
【技术特征摘要】
【国外来华专利技术】20180207 JP 2018-0205641.一种发送装置,包括:
发送单元,被配置为发送空间语音数据和关于预定数量的登记视点的信息。
2.根据权利要求1所述的发送装置,
其中,关于所述视点的所述信息包括关于指示所述视点的位置的方位角和仰角的信息。
3.根据权利要求1所述的发送装置,
其中,对所述预定数量的登记视点信息进行分组。
4.根据权利要求1所述的发送装置,
其中,所述空间语音数据是基于场景的音频的数据。
5.根据权利要求4所述的发送装置,
其中,所述基于场景的音频的所述数据是HoA格式的每个分量。
6.根据权利要求4所述的发送装置,
其中,所述发送单元将所述基于场景的音频的所述数据和关于所述预定数量的登记视点的所述信息包括在对象音频的包中以进行发送。
7.根据权利要求6所述的发送装置,
其中,所述对象音频的所述包是MPEG-H音频流包。
8.根据权利要求6所述的发送装置,
其中,所述发送单元将所述对象音频的所述包包括在ISOBMFF的容器中以进行发送。
9.一种发送方法,包括:
由发送单元发送空间语音数据和关于预定数量的登记视点的信息的步骤。
10.一种处理装置,包括:
获取单元,被配置为获取空间语音数据和关于预定数量的登记视点的信息;以及
处理单元,被配置为通过基于关于所述登记视点的所述信息处理所述空间语音数据来获取输出语音数据。
11.根据权利要求10所述的处理装置,
其中,关于所述视点的所述信息包括关于指示所述视点的位置的方位角和仰角的信息。
【专利技术属性】
技术研发人员:塚越郁夫,
申请(专利权)人:索尼公司,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。