声音效果的文本注释制造技术

技术编号:30134559 阅读:22 留言:0更新日期:2021-09-23 14:02
可以通过选择性颜色替换来实现对颜色或视觉障碍的调节。颜色调节模块从主机系统接收图像帧并生成所述图像帧的颜色适配版本。颜色调节模块可以包括基于规则的过滤器,所述过滤器将图像帧内的一种或多种颜色替换为一种或多种对应的替代颜色。多种对应的替代颜色。多种对应的替代颜色。

【技术实现步骤摘要】
【国外来华专利技术】声音效果的文本注释


[0001]本公开涉及视听媒体增强领域,特别是向现有视听媒体添加内容以改善残障人士的易访问性。

技术介绍

[0002]并非所有视听媒体(例如视频游戏)对于残障人士都是易访问的。尽管具有对听障人士起作用的带字幕的声音的视频游戏越来越普遍,但对具有诸如视力障碍的其他障碍人士却未得到任何调节。另外,较早的电影和游戏不包括字幕。
[0003]视频游戏的结合的交互式视听特性意味着简单地浏览场景并对其进行描述是不可能的。如今,许多视频游戏都包括开放世界部件,用户在其中具有多种选择,这意味着游戏中没有两个动作序列是相同的。另外,由于场景的庞大数量和每个场景内的颜色,对于许多视频游戏和电影来说,无法为色盲人士自定义调色板。最终,一直存在许多没有为残障人士提供调节方案的视频游戏和电影,增加此类调节方案既耗时又费力。
[0004]正是在这种背景下产生了本专利技术的实施方案。
附图说明
[0005]通过考虑下列具体实现方式连同附图,本专利技术的教示能够容易地理解,在附图中:
[0006]图1是根据本公开的方面的按需易访问性系统的示意图。
[0007]图2A是根据本公开的方面的在按需易访问性系统中使用的递归神经网络的简化节点图。
[0008]图2B是根据本公开的方面的在按需易访问性系统中使用的展开递归神经网络的简化节点图。
[0009]图2C是根据本公开的方面的在按需易访问性系统中使用的卷积神经网络的简化图。
[0010]图2D是根据本公开的方面的用于在按需易访问性系统中训练神经网络的方法的框图。
[0011]图3是根据本公开的方面的示出动作描述部件系统的操作过程的框图。
[0012]图4是根据本公开的方面的描绘具有带标签的场景元素的图像帧的图。
[0013]图5是根据本公开的方面的用于场景注释部件系统编码器

解码器的训练方法的框图。
[0014]图6是根据本公开的方面的示出用于颜色调节部件系统的操作过程的框图。
[0015]图7是根据本公开的方面的描绘图形风格修改部件系统的训练的框图。
[0016]图8是根据本公开的方面的示出声音效果注释部件系统的操作过程的框图。
[0017]具体实现方式
[0018]尽管下面的具体实现方式包含用于说明目的的许多具体细节,但本领域的任何普通技术人员应了解,对以下细节的许多变化和更改处于本专利技术的范围内。因此,下面描述的
本专利技术的实施方案的示例在对要求保护的本专利技术不失任何一般性并且不对其施以限制的情况下进行阐述。
[0019]尽管阐述了许多具体细节以便提供对本专利技术的实施方案的透彻理解,但是本领域技术人员将理解,可以在没有这些具体细节的情况下实践其他实施方案。在其他实例中,未对公知的方法、过程、部件和电路进行详细描述以免不必要地混淆本公开的方面。本文描述的一些部分以计算机存储器内的数据位或二进制数字信号的运算的算法和符号表示来呈现。这些算法描述和表示可以是数据处理领域技术人员用来将其工作的实质传达给本领域其他技术人员的技术。
[0020]如本文所使用的算法是导致期望结果的动作或操作的自洽序列。这些动作或操作包括对物理量的物理操纵。通常,尽管非必需,但这些量采取能够被存储、传送、组合、比较以及以其他方式操纵的电信号或磁信号的形式。已经证实,主要出于普遍使用原因,有时可以适宜地将这些信号称为位、值、元素、符号、字符、项、数字等。
[0021]除非明确说明或从以下讨论中显而易见,否则应理解,在整个说明书中,使用诸如“处理”、“计算”、“转换”、“协调”、“确定”或“识别”的术语的讨论是指计算机平台的动作和过程,该计算机平台是一种电子计算装置,其包括处理器,该处理器将处理器寄存器以及可访问平台存储器内表示为物理(例如,电子)量的数据操纵和转换为类似地表示为计算机平台存储器、处理器寄存器或显示屏内的物理量的其他数据。
[0022]计算机程序可以存储在计算机可读存储介质中,诸如但不限于任何类型的磁盘,包括软盘、光盘(例如,光盘只读存储器(CD

ROM)、数字视频光盘(DVD)、Blu

Ray Discs
TM
等),以及磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、闪存存储器或适于存储电子指令的任何其他类型的非暂时性介质。
[0023]术语“联接的”和“连接的”以及它们的派生词在本文中可以用于描述用于执行本文中的操作的设备的部件之间的结构关系。应当理解,这些术语并不旨在彼此之间是同义词。而是,在一些特定实例中,“连接的”可以指示两个或更多个元件彼此直接物理接触或电接触。在一些其他实例中,“连接的”、“连接”及其派生词用于指示例如在神经网络中的节点层之间的逻辑关系。可以使用“联接的”来指示两个或更多个元件彼此直接或间接(通过在它们之间的其他居间元件)物理接触或电接触,和/或两个或更多个元件彼此协作或通信(例如,在因果关系中)。
[0024]按需易访问性系统
[0025]根据本公开的方面,按需易访问性系统提供了对现有媒体的增强,以改善对于残障用户的易访问性。另外,按需易访问性系统可以为非残障用户提供美学益处和改善的体验。此外,按需易访问性系统改善了媒体系统的功能,因为其为残障人士创建了易访问性内容,而无需更改现有媒体。在这种情况下,媒体可以是视频游戏、电影、电视或音乐。按需易访问性系统将小标题、文本应用于语音描述、颜色变化和风格变化,以有助于那些残障人士对视频游戏和其他媒体的易访问性。
[0026]在图1中示意性示出的一种可能的实现方式中,按需易访问性系统100包括不同的部件模块。这些模块可以包括动作描述模块110、场景注释模块120、颜色调节模块130、图形风格修改模块140和声音效果注释模块150。这些部件模块中的每一者都提供单独的功能,以增强媒体内容对用户的易访问性。这些模块可以用硬件、软件或者硬件和软件的组合来
实现。本公开的方面包括其中按需易访问性系统仅结合上述部件模块中的一个的实现方式。本公开的方面还包括其中按需易访问性系统结合两个或更多个但少于上述五个部件模块中的全部五个的组合的实现方式。
[0027]易访问性系统100可以接收由主机系统102实现的来自实时游戏的音频和视频作为输入。输入的音频和视频可以例如经由Twitch被流传输到互联网实时流,输入的音频和视频在互联网实时流中被在线处理。易访问性系统100的按需架构给予玩家以控制,使得通过简单的命令(例如,按下按钮),玩家便能够选择性地激活一个或多个不同的部件模块110、120、130、140和150。
[0028]如图1所示,实现五个部件模块的某些元件由控制模块101链接。控制模块101从主机系统102接收输入的图像帧数据和音频数据。控制模块101将适当的数据从主机系统引导到每个模块,使得该模块能够执行其特定过程。控制模块10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于增强视听内容的易访问性的系统,所述系统包括:声音效果注释模块,其被配置为对在音频片段内发生的主要音频事件进行分类,以生成描述在所述音频片段内发生的所述主要音频事件的一个或多个标签。2.根据权利要求1所述的系统,其中所述一个或多个主要音频事件包括所述音频片段内的前三个最重要的声音。3.根据权利要求1所述的系统,其中所述音频片段是视频游戏音频的剪辑,所述视频游戏音频的剪辑具有与多个源相关联的多个声音。4.根据权利要求1所述的系统,其中所述声音效果注释模块包括神经网络,所述神经网络被配置为对在所述音频片段内发生的主要声音效果进行分类,并且其中所述神经网络利用监督学习技术和非监督学习技术两者进行训练。5.根据权利要求1所述的系统,其中所述音频片段的持续时间小于或等于所述神经网络对在所述音频片段内发生的所述主要声音效果进行分类的时间。6.根据权利要求1所述的系统,其还包括耦合到所述声音效果注释模块的控制器,其中所述控制器被配置为将所述一个或多个标签提供给主机系统以在显示屏上显示并且使所述声音效果注释模块的输出与一个或多个其他神经网络模块同步。7.根据权利要求6所述的系统,其中所述一个或多个其他神经网络模块包括图形风格修改模块,所述图形风格修改模块被配置为将根据参考图像帧适配的风格应用于源图像帧,其中所述源图像帧被同步以在所述音频片段期间出现。8.根据权利要求1所述的系统,其还包括耦合到所述主机系统和所述动作描述模块的控制器,其中所述控制器被配置为将对应于所述一个或多个标签的文本的呈现与和所述音频片段相关联的一序列图像帧的显示同步。9.一种用于增强视听内容的易访问性的方法,其包括:用声音效果注释模块对音频片段内发生的主要声音效果进行分类,以生成描述在所述音频片段内发生的所...

【专利技术属性】
技术研发人员:N库马尔J亚当斯A贾蒂M奥莫特
申请(专利权)人:索尼互动娱乐股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利