System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于视觉数据处理的方法、装置和介质制造方法及图纸_技高网

用于视觉数据处理的方法、装置和介质制造方法及图纸

技术编号:44168095 阅读:4 留言:0更新日期:2025-01-29 10:42
本公开的实施例提供了一种用于视觉数据处理的解决方案。提出了一种用于视觉数据处理的方法。该方法包括:针对视觉数据与视觉数据的比特流之间的转换,获取视觉数据的中间表示,该中间表示不同于视觉数据的经量化的隐表示,并且基于以下至少一项被生成:至少一个参数、经量化的隐表示的至少一部分、经量化的隐表示的至少一部分的预测、或该预测与经量化的隐表示的至少一部分之间的差异;以及针对转换,对中间表示执行合成变换,其中经量化的隐表示基于将第一神经网络应用于视觉数据被生成。

【技术实现步骤摘要】
【国外来华专利技术】

本公开的实施例一般涉及视觉数据处理技术,并且更具体地,涉及基于神经网络的视觉数据编解码。


技术介绍

1、过去的十年已经见证了深度学习在各种领域的快速发展,特别是在计算机视觉和图像处理中。神经网络最初是利用神经科学和数学的跨学科研究专利技术的。它在非线性变换和分类方面显示出强大的实力。基于神经网络的图像/视频压缩技术在过去的五年期间已经取得了显著的进步。据报道,最新的基于神经网络的图像压缩算法实现了与通用视频编解码(vvc)相当的率失真(r-d)性能。随着神经图像的性能不断提高,基于神经网络的视频压缩成为积极发展的研究领域。然而,通常期望进一步提高基于神经网络的图像/视频编解码的编解码质量。


技术实现思路

1、本公开的实施例提供了一种用于视觉数据处理的解决方案。

2、在第一方面中,提出了一种用于视觉数据处理的方法。该方法包括:针对视觉数据与视觉数据的比特流之间的转换,获取视觉数据的中间表示,中间表示与视觉数据的经量化的隐表示不同并且基于以下至少一项被生成:至少一个参数,经量化的隐表示的至少一部分,经量化的隐表示的至少一部分的预测,或者预测与经量化的隐表示的至少一部分之间的差异;以及针对转换,对中间表示执行合成变换,其中经量化的隐表示基于将第一神经网络应用于视觉数据被生成。

3、根据本公开的第一方面的方法,与视觉数据的经量化的隐表示不同的中间表示被生成并用于合成变换。与其中经量化的隐表示被直接用于合成变换的常规解决方案相比,所提出的方法可以至少部分地消除由常规转换过程引起的伪影,并且因此经重构的图像可以在视觉上更令人愉悦。以此方式,所提出的方法可以有利地提高编解码质量。

4、在第二方面中,提出了一种用于视觉数据处理的装置。该装置包括处理器和其上具有指令的非暂态存储器。该指令在由处理器执行时使处理器执行根据本公开的第一方面的方法。

5、在第三方面中,提出了一种非暂态计算机可读存储介质。该非暂态计算机可读存储介质存储有指令,指令使处理器执行根据本公开的第一方面的方法。

6、在第四方面,提出了另一种非暂态计算机可读记录介质。非暂时性计算机可读记录介质存储视觉数据的比特流,比特流通过由视觉数据处理装置执行的方法而生成。该方法包括:获取视觉数据的中间表示,中间表示与视觉数据的经量化的隐表示不同并且基于以下至少一项被生成:至少一个参数,经量化的隐表示的至少一部分,经量化的隐表示的至少一部分的预测,或者预测与经量化的隐表示的至少一部分之间的差异;以及基于对中间表示的合成变换,生成比特流,其中经量化的隐表示基于将第一神经网络应用于视觉数据被生成。

7、在第五方面中,提出了一种用于存储视觉数据的比特流的方法。该方法包括:获取视觉数据的中间表示,中间表示与视觉数据的经量化的隐表示不同并且基于以下至少一项被生成:至少一个参数,经量化的隐表示的至少一部分,经量化的隐表示的至少一部分的预测,或者预测与经量化的隐表示的至少一部分之间的差异;基于对中间表示的合成变换,生成比特流,以及将比特流存储在非暂态计算机可读记录介质中,其中经量化的隐表示基于将第一神经网络应用于视觉数据被生成。

8、提供本
技术实现思路
以引入简化形式的概念的选择,这将在以下具体实施方式中进一步描述。本
技术实现思路
不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。

本文档来自技高网...

【技术保护点】

1.一种用于视觉数据处理的方法,包括:

2.根据权利要求1所述的方法,其中获取所述中间表示包括:

3.根据权利要求2所述的方法,其中更新所述经量化的隐表示的所述至少一部分包括以下至少一项:

4.根据权利要求2-3中任一项所述的方法,其中所述预测是平均值,或者所述差异被包括在所述视觉数据的经量化的残差隐表示中。

5.根据权利要求2-4中任一项所述的方法,其中获取所述经量化的隐表示的所述至少一部分包括:

6.根据权利要求5所述的方法,还包括:

7.根据权利要求2-4中任一项所述的方法,其中获取所述经量化的隐表示的所述至少一部分包括:

8.根据权利要求6-7中任一项所述的方法,其中生成所述预测包括:

9.根据权利要求6-8中任一项所述的方法,其中所述第一模型为预测模型。

10.根据权利要求6-9中任一项所述的方法,其中所述第一模型是自回归的。

11.根据权利要求6-10中任一项所述的方法,其中所述第一模型包括上下文子网络或上下文模型子网络。

12.根据权利要求2-11中任一项所述的方法,其中所述经量化的隐表示的所述至少一部分包括所述经量化的隐表示的所有样本,并且所述中间表示与所述更新的结果相对应。

13.根据权利要求2-11中任一项所述的方法,还包括:

14.根据权利要求1所述的方法,其中获取所述中间表示包括:

15.根据权利要求14所述的方法,其中生成所述中间表示的所述至少一部分包括:

16.根据权利要求14-15中任一项所述的方法,其中所述预测或所述差异中的至少一个通过使用第一模型被生成。

17.根据权利要求6-8和16中任一项所述的方法,其中所述第一模型为估计模型。

18.根据权利要求6-8和16-17中任一项所述的方法,其中所述第一模型包括基于神经网络的子网络,或者所述第一模型的输入包括所述比特流。

19.根据权利要求6-8和16-17中任一项所述的方法,其中所述第一模型包括用于生成所述预测的第一子网络和用于生成统计值的第二子网络。

20.根据权利要求19所述的方法,其中所述第一子网络为超解码器子网络,并且所述第二子网络为超尺度解码器子网络。

21.根据权利要求1-20中任一项所述的方法,还包括:

22.根据权利要求21所述的方法,其中从所述经量化的隐表示确定所述经量化的隐表示的所述至少一部分包括:

23.根据权利要求21所述的方法,其中从所述经量化的隐表示确定所述经量化的隐表示的所述至少一部分包括:

24.根据权利要求23所述的方法,其中所述度量是平均、最小值或最大值。

25.根据权利要求22-24中任一项所述的方法,其中样本的索引指示以下一项:

26.根据权利要求22-25中任一项所述的方法,其中以下阈值中的至少一项或以下至少一项的指示在所述比特流中被指示:

27.根据权利要求19-26中任一项所述的方法,其中所述统计值为方差。

28.根据权利要求19-27中任一项所述的方法,其中所述统计值是高斯概率的方差,或者所述统计值基于所述比特流通过使用所述第二子网络被获取。

29.根据权利要求1-28中任一项所述的方法,其中所述至少一个参数或所述至少一个参数的指示被包括在所述比特流中。

30.根据权利要求1-29中任一项所述的方法,其中所述至少一个参数是与零不同的标量值或向量。

31.根据权利要求1-30中任一项所述的方法,其中所述至少一个参数基于质量度量被确定。

32.根据权利要求31所述的方法,其中所述质量度量包括以下至少一项:

33.根据权利要求1-32中任一项所述的方法,其中所述经量化的隐表示的所述至少一部分包括所述经量化的隐表示的一个或多个样本。

34.根据权利要求1-33中任一项所述的方法,其中所述合成变换通过使用基于神经网络的子网络被执行,或者

35.根据权利要求1-34中任一项所述的方法,其中以下至少一项在所述比特流中被指示:

36.根据权利要求1-34中任一项所述的方法,其中以下至少一项取决于所述视觉数据的颜色格式和/或颜色分量:

37.根据权利要求1-36中任一项所述的方法,其中被包括在所述比特流中的值在以下一项处被编解码:

38.根据权利要求1-37中任一项所述的方法,其中被包括在所述比特流中的值在被编解码之前被二值化。

39.根据权利要求1-38中任一...

【技术特征摘要】
【国外来华专利技术】

1.一种用于视觉数据处理的方法,包括:

2.根据权利要求1所述的方法,其中获取所述中间表示包括:

3.根据权利要求2所述的方法,其中更新所述经量化的隐表示的所述至少一部分包括以下至少一项:

4.根据权利要求2-3中任一项所述的方法,其中所述预测是平均值,或者所述差异被包括在所述视觉数据的经量化的残差隐表示中。

5.根据权利要求2-4中任一项所述的方法,其中获取所述经量化的隐表示的所述至少一部分包括:

6.根据权利要求5所述的方法,还包括:

7.根据权利要求2-4中任一项所述的方法,其中获取所述经量化的隐表示的所述至少一部分包括:

8.根据权利要求6-7中任一项所述的方法,其中生成所述预测包括:

9.根据权利要求6-8中任一项所述的方法,其中所述第一模型为预测模型。

10.根据权利要求6-9中任一项所述的方法,其中所述第一模型是自回归的。

11.根据权利要求6-10中任一项所述的方法,其中所述第一模型包括上下文子网络或上下文模型子网络。

12.根据权利要求2-11中任一项所述的方法,其中所述经量化的隐表示的所述至少一部分包括所述经量化的隐表示的所有样本,并且所述中间表示与所述更新的结果相对应。

13.根据权利要求2-11中任一项所述的方法,还包括:

14.根据权利要求1所述的方法,其中获取所述中间表示包括:

15.根据权利要求14所述的方法,其中生成所述中间表示的所述至少一部分包括:

16.根据权利要求14-15中任一项所述的方法,其中所述预测或所述差异中的至少一个通过使用第一模型被生成。

17.根据权利要求6-8和16中任一项所述的方法,其中所述第一模型为估计模型。

18.根据权利要求6-8和16-17中任一项所述的方法,其中所述第一模型包括基于神经网络的子网络,或者所述第一模型的输入包括所述比特流。

19.根据权利要求6-8和16-17中任一项所述的方法,其中所述第一模型包括用于生成所述预测的第一子网络和用于生成统计值的第二子网络。

20.根据权利要求19所述的方法,其中所述第一子网络为超解码器子网络,并且所述第二子网络为超尺度解码器子网络。

21.根据权利要求1-20中任一项所述的方法,还包括:

22.根据权利要求21所述的方法,其中从所述经量化的隐表示确定所述经量化的隐表示的所述至少一部分包括:

23.根据权利要求21所述的方法,其中从所述经量化的隐表示确定所述经量化的隐表示的所述至少一部分包括:

24.根据权利要求23所述的方法,其中所述度量是平均、最小值或最大值。

25.根据权利要求22-24中任一项所述的方法...

【专利技术属性】
技术研发人员:S·艾森力克吴耀军张召宾李跃张凯张莉
申请(专利权)人:抖音视界有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1