基于媒体内容中的语音度来确定光效果制造技术

技术编号:29688286 阅读:18 留言:0更新日期:2021-08-13 22:13
一种方法,包括获得(101)媒体内容信息以及获得(103,109)指示音频部分中的语音度的信息。媒体内容信息包括媒体内容和/或通过分析媒体内容确定的信息,并且基于对媒体内容的音频部分的分析来确定语音度。该方法进一步包括确定(107,113)在媒体内容正被呈现时音频部分应该被使用来确定要呈现的一个或多个光效果的程度,以及确定(117)这些光效果。该程度基于语音度来确定,并且光效果根据该程度而基于对音频部分的分析(115)、并基于对媒体内容的视频部分的分析来确定。

【技术实现步骤摘要】
【国外来华专利技术】基于媒体内容中的语音度来确定光效果
本专利技术涉及一种用于确定在媒体内容正被呈现时要呈现的一个或多个光效果的系统,所述一个或多个光效果基于对所述媒体内容的分析来确定。本专利技术进一步涉及一种确定在媒体内容正被呈现时要呈现的一个或多个光效果的方法,所述一个或多个光效果基于对所述媒体内容的分析来确定。本专利技术还涉及一种使得计算机系统能够执行这种方法的计算机程序产品。
技术介绍
连接的光系统(诸如PhilipsHue)的通用性保持增长,向用户提供越来越多的特征。这些新特征包括上下文感知、智能自动化行为、新的光使用形式(诸如娱乐)等。例如,Hue娱乐通过使用光脚本或通过基于音频和/或视频分析创建光效果来增强观看电影、听音乐和/或玩游戏的体验。后者是用Hue娱乐应用程序HueSync实现的,HueSync使用颜色提取算法自动创建光效果。用于娱乐的理想照明系统支持并增强具体内容的体验。当前,聚焦于低层次的图像统计,诸如颜色值和图像运动。然而,这些统计没有考虑场景的语义维度。在统计上几乎相同的两个场景可以传达截然不同的意义。没有上下文,就不可能判断草地中空长椅的图像的语义(预期)意义,例如,它可以是旨在传达美好夏日或与家人在公园中散步的图像。然而,当一个人考虑到图像的来源是殡仪馆时,图像具有不同的维度,也许是悲伤、或悲痛的维度。在没有媒体内容的上下文的情况下,基于媒体内容呈现光效果经常导致次优的光效果。WO2007/119277A1公开了一种设备,该设备在视频正被呈现时控制光设备来呈现光效果,并且该设备以视频流派的形式考虑视频的上下文。具体地,WO2007/119277A1公开了一种照明控制数据生成单元,其生成照明控制数据以控制照明设备,使得照明设备根据流派(例如音乐节目、体育赛事等)以及显示在显示设备上的视频数据的特征值来发射照明光。不管特征值如何,当显示的视频具有预定流派时,照明设备都持续发射照明光。WO2007/119277A1的缺点是,通过仅考虑视频的流派,呈现的光效果仍然是次优的。
技术实现思路
本专利技术的第一目的是提供一种系统,该系统能够确定一个或多个光效果,同时以更好的方式考虑媒体内容的上下文,以便创建更适合的光效果。本专利技术的第二目的是提供一种方法,该方法能够确定一个或多个光效果,同时以更好的方式考虑媒体内容的上下文,以便创建更适合的光效果。在本专利技术的第一方面中,一种用于确定在媒体内容正被呈现时要呈现的一个或多个光效果的系统,所述一个或多个光效果基于对所述媒体内容的分析来确定,该系统包括至少一个输入接口、至少一个输出接口、和至少一个处理器,该至少一个处理器被配置为:使用所述至少一个输入接口来获得媒体内容信息,所述媒体内容信息包括所述媒体内容和/或通过分析所述媒体内容确定的信息;并且获得指示所述音频部分中的语音度的信息,所述语音度基于对所述媒体内容的音频部分的分析来确定。至少一个处理器被进一步配置成:确定所述音频部分应该被使用来确定一个或多个光效果的程度,所述程度基于所述确定的语音度来确定;确定在媒体内容正被呈现时要在一个或多个光源上呈现的一个或多个光效果,所述一个或多个光效果根据所述程度而基于对所述音频部分的分析来确定并至少基于对所述媒体内容的视频部分的分析来确定;以及使用所述至少一个输出接口来控制所述一个或多个光源以呈现所述一个或多个光效果和/或输出指定所述一个或多个光效果的光脚本。通过使用语音度作为场景的语义意义的指标,可以以更好的方式考虑媒体内容的上下文,以便创建更适合的光效果。即使当只考虑语音的频谱组成时,这对于场景的语义意义(例如低语对尖叫或笑对哭)来说仍然可以是高度信息丰富的。包含大量对话的场景将通常比视觉上相似(就整体场景动态、饱和度和颜色而言)但不包括大量对话的场景更受益于微妙的照明效果。例如,所述语音度可以包括语音量和/或一个或多个语音类别。例如,所述系统可以是包括一个或多个设备的照明系统的一部分,或者可以在包括一个或多个照明设备的照明系统中使用。所述程度可以指示是否应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度。基于媒体内容项目的音频部分的强度和/或响度来改变光效果的亮度和/或色度对于音乐视频剪辑和具有声音效果(诸如爆炸)的场景尤其有益,但是对于具有大量对话的场景不是适当的。音频的强度通常是由声波在垂直于该区域的方向上每单位面积所携带的功率。音频的响度通常是对声压的主观感知。作为第一示例,可以随着具有高强度和/或响度的一段音频部分而呈现具有高亮度的光效果,并且可以随着具有低强度和/或响度的一段音频部分而呈现具有低亮度的光效果。作为第二示例,可以随着具有高强度和/或响度的音频部分的片段而呈现具有饱和颜色的光效果,并且可以随着具有低强度和/或响度的音频部分的片段而呈现具有去饱和颜色的光效果。替代地或另外地,所述程度可以指示是否应该基于所述音频部分的一个或多个不同特性来确定所述一个或多个光效果的亮度和/或色度。语音度通常基于除音频强度和/或响度之外的特性来确定。光效果的亮度和/或色度还可以基于这些其他特性而改变:例如基于从叙述和/或歌唱中确定的感知情绪。感知情绪可以被确定,例如,如《ISCA语音和情绪研讨会论文集》(https://www.isca-speech.org/archive_open/speech_emotion/spem.pdf)中所描述。所述音频部分中的所述语音度可以通过确定所述音频部分中的语音量并基于所述语音量将所述音频部分分类为主要是语音或主要是非语音来确定。这种分类可以如接下来两段中描述的来使用。所述至少一个处理器可以被配置为根据所述音频部分被分类为主要是语音而将第一程度确定为所述程度,并且根据所述音频部分被分类为主要是非语音而将第二程度确定为所述程度,所述第二程度指示应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度,并且所述第一程度指示不应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度。基于媒体内容项目的音频部分的强度和/或响度来改变光效果的亮度和/或色度对于音乐视频剪辑和具有声音效果(诸如爆炸)的场景尤其有益,但是对于具有大量对话的场景不是适当的。所述至少一个处理器可以被配置为根据所述音频部分被分类为主要是语音而使用第一亮度和/或色度范围,并且根据所述音频部分被分类为主要是非语音而使用第二亮度和/或色度范围来确定所述一个或多个光效果,所述第一亮度和/或色度范围具有比所述第二亮度和/或色度范围更低的平均亮度和/或色度。通常,被分类为主要是语音的场景聚焦于对话,并且这些场景优选地使用比被分类为主要是非语音的场景(其通常聚焦于视觉方面)更低强度的光,以便不从对话分心。所述音频部分中的所述语音度可以通过将所述音频部分分类为剧情声音或非剧情声音来确定。非剧情声音通常被定义为来自故事空间之外的来源的声音,例如叙述者的评论、为戏剧效果而添加的声音效果、气氛音乐。剧情声音通常被定义为其本文档来自技高网
...

【技术保护点】
1.一种用于确定在媒体内容正被呈现时要呈现的一个或多个光效果的系统(1),所述一个或多个光效果基于对所述媒体内容的分析来确定,所述系统(1)包括:/n-至少一个输入接口(3);/n-至少一个输出接口(4);和/n-至少一个处理器(5),被配置为:/n-使用所述至少一个输入接口(3)来获得媒体内容,/n-确定在所述媒体内容正被呈现时要在一个或多个光源(13-17)上呈现的一个或多个光效果,所述一个或多个光效果基于以下来确定:/n-对所述媒体内容的音频部分的分析,和/n-对所述媒体内容的视频部分的分析,以及/n-使用所述至少一个输出接口(4)来控制所述一个或多个光源(13-17)以呈现所述一个或多个光效果,/n其中所述处理器(5)被进一步配置成:/n-获得指示所述音频部分中的语音度的信息,所述语音度基于对所述音频部分的所述分析来确定;/n-确定所述音频部分应该被使用来确定所述一个或多个光效果的程度,所述程度基于所述确定的语音度来确定;以及/n-根据所述音频部分应该被使用来确定所述一个或多个光效果的所述确定的程度,基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度。/n...

【技术特征摘要】
【国外来华专利技术】20190125 EP 19/153,773.7;20190109 US 62/790,2191.一种用于确定在媒体内容正被呈现时要呈现的一个或多个光效果的系统(1),所述一个或多个光效果基于对所述媒体内容的分析来确定,所述系统(1)包括:
-至少一个输入接口(3);
-至少一个输出接口(4);和
-至少一个处理器(5),被配置为:
-使用所述至少一个输入接口(3)来获得媒体内容,
-确定在所述媒体内容正被呈现时要在一个或多个光源(13-17)上呈现的一个或多个光效果,所述一个或多个光效果基于以下来确定:
-对所述媒体内容的音频部分的分析,和
-对所述媒体内容的视频部分的分析,以及
-使用所述至少一个输出接口(4)来控制所述一个或多个光源(13-17)以呈现所述一个或多个光效果,
其中所述处理器(5)被进一步配置成:
-获得指示所述音频部分中的语音度的信息,所述语音度基于对所述音频部分的所述分析来确定;
-确定所述音频部分应该被使用来确定所述一个或多个光效果的程度,所述程度基于所述确定的语音度来确定;以及
-根据所述音频部分应该被使用来确定所述一个或多个光效果的所述确定的程度,基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度。


2.如权利要求1所述的系统(1),其中所述音频部分中的所述语音度是通过确定所述音频部分中的语音量并基于所述语音量将所述音频部分分类为主要是语音或主要是非语音来确定的。


3.如权利要求2所述的系统(1),其中所述至少一个处理器(5)被配置为根据所述音频部分被分类为主要是语音而将第一程度确定为所述程度并且根据所述音频部分被分类为主要是非语音而将第二程度确定为所述程度,所述第二程度指示应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度,并且所述第一程度指示不应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度。


4.如权利要求2所述的系统(1),其中所述至少一个处理器(5)被配置为根据所述音频部分被分类为主要是语音而使用第一亮度和/或色度范围并根据所述音频部分被分类为主要是非语音而使用第二亮度和/或色度范围来确定所述一个或多个光效果,所述第一亮度和/或色度范围具有比所述第二亮度和/或色度范围更低的平均亮度和/或色度。


5.如权利要求1所述的系统(1),其中通过将所述音频部分分类为多个类别(51,53,55,57)中的一个类别来确定所述音频部分中的所述语音度,所述多个类别(51,53,55,57)包括以下中的至少两种:交谈(57)、低语、尖叫(55)、叙述、歌唱(51)、剧情语音、和非剧情语音。


6.如权利要求5所述的系统(1),其中所述至少一个处理器(5)...

【专利技术属性】
技术研发人员:T·博拉D·V·阿利亚克赛尤A·L·J·坎普
申请(专利权)人:昕诺飞控股有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利