生成具有变化域的人工视频制造技术

技术编号：41703614 阅读：17 留言：0更新日期：2024-06-19 12:35

本公开提供“生成具有变化域的人工视频”。一种计算机包括处理器和存储器，并且所述存储器存储指令，所述指令可由所述处理器执行以：接收场景的输入视频和与所述输入视频相关联的音频数据，所述输入视频处于第一域中；执行编码器以将所述输入视频和所述音频数据映射到较低维潜在空间中的潜在向量；以及执行生成器以从所述潜在向量生成所述场景的输出视频，所述输出视频处于第二域中。所述编码器和所述生成器被训练以通过使用所述音频数据来维持所述输入视频与所述输出视频之间的时间一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开呈现了用于基于输入视频来生成人工输出视频的技术。

技术介绍

1、视频可以由诸如相机的图像传感器获取并使用计算机进行处理以确定关于系统周围环境中的对象的数据。感测系统的操作可以包括获取关于系统环境中的对象的准确且及时的数据。计算机可以从一个或多个图像传感器获取视频，所述视频可以被处理以确定对象的位置。计算机可以使用从视频中提取的对象位置数据来操作系统，包括车辆、机器人、安全和对象跟踪系统。机器学习算法可以在车辆上用于操作高级驾驶员辅助系统(adas)或基于在例如在车辆行驶时由车辆上的相机拍摄的视频中检测到对象来执行自主操作。

技术实现思路

1、本公开呈现了用于基于输入视频来生成人工输出视频的技术。所述输出视频具有与所述输入视频相同的语义内容。例如，输入视频和输出视频两者中的语义内容可以示出沿着特定路段行驶的车辆、相同的其他车辆、周围环境等的视角。然而，输出视频具有来自输入视频的变化域。域可以从白天变为夜间、从晴天变为雨天、从低分辨率变为高分辨率、从红-清晰-清晰-清晰(rccc)变为红-绿-蓝(rgb)等。因为输出视频是人工的，即，合成的，所以不需要手动收集新域中的视频。具有不同域中的视频数据集对于训练用于诸如可能取决于解释域数据的对象辨识的任务的机器学习算法可能是有用的。为此，本文的技术可以提供训练数据的多样性和针对特定场景，这两者都可以促成具有增强的泛化能力的经训练的机器学习算法。

2、当生成输出视频时可能出现的问题是维持与输入视频的时间一致性，例如，确保在输出

3、一种计算机包括处理器和存储器，并且所述存储器存储指令，所述指令可由所述处理器执行以：接收场景的输入视频和与所述输入视频相关联的音频数据，所述输入视频处于第一域中；执行编码器以将所述输入视频和所述音频数据映射到较低维潜在空间中的潜在向量；以及执行生成器以从所述潜在向量生成所述场景的输出视频，所述输出视频处于第二域中。所述编码器和所述生成器被训练以通过使用所述音频数据来维持所述输入视频与所述输出视频之间的时间一致性。

4、在示例中，所述编码器和所述生成器可以在训练期间由鉴别器监督。在另一示例中，所述鉴别器可以通过测试所述输出视频与所述音频数据的一致性来监督所述编码器和所述生成器的所述训练。在又一示例中，在训练所述编码器和所述生成器时，所述鉴别器可以使用所述输出视频与所述音频数据之间的相关性来测试所述输出视频与所述音频数据的所述一致性。在再又一示例中，在训练所述编码器和所述生成器时，所述鉴别器可以从相关模块接收所述相关性，并且可以用对比学习来预训练所述相关模块。

5、在另一个示例中，所述鉴别器可以通过测试所述输出视频与所述第二域的一致性来监督所述编码器和所述生成器的所述训练。在又一示例中，所述指令还可以包括用于进行以下操作的指令：基于所述鉴别器的输出来确定对抗损失，并且基于所述对抗损失来更新所述编码器和所述生成器。

6、在示例中，所述第一域和所述第二域可以是所述场景的互斥环境状况。在另一示例中，所述环境状况可以是照明状况或天气状况中的一者。

7、在示例中，所述第一域和所述第二域可以是所述输入视频和所述输出视频的互斥视觉渲染特性。在另一示例中，所述视觉渲染特性是分辨率、颜色表示方案或模拟性(simulatedness)中的一者。

8、在示例中，所述指令还可以包括用于从所述输入视频提取视觉特征的指令，并且执行所述编码器可以基于所述视觉特征。在另一示例中，所述指令还可以包括用于进行以下操作的指令：从所述音频数据中提取音频特征并融合所述视觉特征和所述音频特征，并且执行所述编码器可以基于所述视觉特征和所述音频特征的所述融合。

9、在示例中，所述指令还可以包括用于从所述音频数据中提取音频特征的指令，并且执行所述编码器是基于所述音频特征。

10、在示例中，所述编码器可以被训练为将所述输入视频的语义内容包括在所述潜在向量中并从所述潜在向量中排除所述输入视频的域数据。

11、在示例中，所述编码器可以是第一编码器，所述生成器可以是第一生成器，所述潜在向量可以是第一潜在向量，并且训练所述第一编码器和所述第一生成器可以包括执行第二编码器以将所述输出视频和所述音频数据映射到所述较低维潜在空间中的第二潜在向量，以及执行第二生成器以从所述第二潜在向量生成所述第一域中的所述场景的测试视频。在另一示例中，训练所述第一编码器和所述第一生成器可以包括基于所述测试视频与所述输入视频之间的差异来更新所述第一编码器和所述第一生成器。

12、在示例中，所述指令还可以包括用于以训练数据训练机器学习模型的指令，并且所述训练数据包括所述输出视频。在另一示例中，所述机器学习模型是对象辨识模型。

13、一种方法包括：接收场景的输入视频和与所述输入视频相关联的音频数据，所述输入视频处于第一域中；执行编码器以将所述输入视频和所述音频数据映射到较低维潜在空间中的潜在向量；以及执行生成器以从所述潜在向量生成所述场景的输出视频，所述输出视频处于第二域中。所述编码器和所述生成器被训练以通过使用所述音频数据来维持所述输入视频与所述输出视频之间的时间一致性。

本文档来自技高网...

【技术保护点】

1.一种方法，其包括：

2.根据权利要求1所述的方法，其中所述编码器和所述生成器在训练期间由鉴别器监督。

3.根据权利要求2所述的方法，其中所述鉴别器通过测试所述输出视频与所述音频数据的一致性来监督所述编码器和所述生成器的所述训练。

4.根据权利要求3所述的方法，其中在训练所述编码器和所述生成器时，所述鉴别器使用所述输出视频与所述音频数据之间的相关性来测试所述输出视频与所述音频数据的所述一致性。

5.根据权利要求4所述的方法，其中在训练所述编码器和所述生成器时，所述鉴别器从相关模块接收所述相关性，所述相关模块用对比学习来预训练。

6.根据权利要求2所述的方法，其中所述鉴别器通过测试所述输出视频与所述第二域的一致性来监督所述编码器和所述生成器的所述训练。

7.根据权利要求6所述的方法，其还包括基于所述鉴别器的输出来确定对抗损失，以及基于所述对抗损失来更新所述编码器和所述生成器。

8.根据权利要求1所述的方法，其中所述第一域和所述第二域是所述场景的互斥环境状况。

9.根据权利要求8所述的方

10.根据权利要求1所述的方法，其中所述第一域和所述第二域是所述输入视频和所述输出视频的互斥视觉渲染特性。

11.根据权利要求10所述的方法，其中所述视觉渲染特性是分辨率、颜色表示方案或模拟性中的一者。

12.根据权利要求1所述的方法，其还包括从所述输入视频中提取视觉特征，其中执行所述编码器是基于所述视觉特征。

13.根据权利要求1所述的方法，其还包括从所述音频数据中提取音频特征，其中执行所述编码器是基于所述音频特征。

14.根据权利要求1所述的方法，其中所述编码器被训练为将所述输入视频的语义内容包括在所述潜在向量中并从所述潜在向量中排除所述输入视频的域数据。

15.一种计算机，其包括处理器和存储器，所述存储器存储指令，所述指令能够由所述处理器执行以执行根据权利要求1–14中的一项所述的方法。

...

【技术特征摘要】

1.一种方法，其包括：

2.根据权利要求1所述的方法，其中所述编码器和所述生成器在训练期间由鉴别器监督。

3.根据权利要求2所述的方法，其中所述鉴别器通过测试所述输出视频与所述音频数据的一致性来监督所述编码器和所述生成器的所述训练。

5.根据权利要求4所述的方法，其中在训练所述编码器和所述生成器时，所述鉴别器从相关模块接收所述相关性，所述相关模块用对比学习来预训练。

6.根据权利要求2所述的方法，其中所述鉴别器通过测试所述输出视频与所述第二域的一致性来监督所述编码器和所述生成器的所述训练。

7.根据权利要求6所述的方法，其还包括基于所述鉴别器的输出来确定对抗损失，以及基于所述对抗损失来更新所述编码器和所述生成器。

8.根据权利要求1所述的方法，其中所述...

【专利技术属性】
技术研发人员：阿希尔·帕林谢里，A·钱德，
申请(专利权)人：福特全球技术公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人