System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种用于交通场景的至少一个参与者的行为规划的计算机实现的方法,其中首先基于聚合的场景特定信息生成至少一个基于网格的(gitternetz-basiert)场景表示基于网格的场景表示被划分为多个分块,这些分块分别表示交通场景的子区域。基于这些分块,然后将基于网格的场景表示映射到潜在特征上,其中考虑分块之间的语义关系。以这种方式生成的潜在特征被用作针对至少一个下游深度学习(dl)模块的输入,以用于预测交通场景的发展和/或用于行为规划。本专利技术还涉及一种用于交通场景的至少一个参与者的行为规划的计算机实现的系统。该系统包括:感知模块(perzeptionsmodul),用于基于聚合的场景特定信息生成基于网格的场景表示;以及预处理组件,用于将基于网格的场景表示划分为多个分块,这些分块分别表示交通场景的子区域。此外,该系统包括dl架构,用于通过使用这些分块并考虑基于网格的场景表示的各个分块之间的语义关系将基于网格的场景表示映射到潜在特征上。该系统还包括至少一个下游的dl模块,用于基于这些潜在特征进行行为规划和/或预测交通场景的发展。
技术介绍
1、为了实现高性能和安全的自动驾驶,自动驾驶车辆必须能够预料驾驶情况的未来发展并采取相应的行动。经典的基于模型的方法已经达到了极限,特别是在各种城市场景中,使得基于dl的用于预测和行为规划的方法越来越成熟。
2、在此所讨论的方法基于当前交通场景的基于网格的表示。为此,场景特定信息从自我车辆的不同信息源聚合,并且必要时也从车辆外部的信息源聚合。通常,场景特定信息是由摄像机传感
3、以下陈述实践中已知的基于网格的场景表示的一些示例:
4、-rgb网格,其中以不同的颜色值来示出不同的语义信息,例如车道标记、车辆、行人等,
5、-二进制网格,其针对每个语义信息在网格张量中包含一个二进制层,其中,在有信息存在的地方其值为1,否则值为0。
6、-体素网格,其中示出激光雷达点云,以及
7、-体素流网格,其中示出雷达反射。
8、还已知:借助所谓的骨干网络进一步处理网格张量,以生成潜在特征或特性(feature)作为针对下游dl规划和预测模块的输入。为此已建立了从图像处理中已知的卷积神经网络(cnn)。
9、然而,在图像处理中已经发展出一种新的范式——所谓的视觉变换器(visiontransformer)。视觉变换器代表了对语言处理(natural language processing(自然语言处理))中已知的经典变换器的扩展。这种视觉变换器例如在dosovitskiy等人的“an imageis worth 16x16words:transformers for image recognition at scale”,https://arxiv.org/abs/2010.11929以及在vaswani等人的“attention is all you need”https://arxiv.org/abs/2010.11929中有所描述。
10、cnn的一个主要缺点在于,各个分块与相应的图像内容无关地被处理。各个cnn滤波器经该图像而均匀滑动,使得首要考虑相邻像素之间的关系。cnn的“感知场(perceptivefield)”在这里更限于局部。尽管可以通过cnn不同层之间的子采样而在一定程度上考虑图像的较远区域之间的关系。但是,这些信息通过cnn的多个层而被“软化(weichwaschen)”。
11、视觉变换器借助于变换器的注意力(attention)而解决cnn的这一缺点。在视觉变换器的情况下,“感知场”因此可全局延伸遍及整个图像,因为对所有分块的注意力都被考虑在内。注意力通过其对各个分块的图像内容之间的语义关系进行建模来考虑感知的局部性。为此,借助神经网络嵌入各个分块。然后将这些嵌入(embeddings)输送到变换器。在变换器中,这些分块或嵌入被解释为所谓的令牌(token),以便以注意力的形式对分块之间的关系进行建模。通过这种方式,例如,可以将来自图像左上角的信息与来自图像右下角的信息完美地组合,并放置在针对相应图像处理任务的有意义的上下文中。
技术实现思路
1、本专利技术采用视觉变换器的这个方面,以便有针对性地将对于给定交通场景中的预测和行为规划而言相关的并且分布到基于网格的场景表示的多个分块上的信息映射到潜在特征上。这些相关信息因此可提供给下游dl模块使用,这些信息在那里可用于预测和规划任务。已知的视觉变换器总是只考虑各个分块的信息内容的整体,以便对各个分块之间的关系进行建模。根据本专利技术,已经认识到:通过这种方式而使得所述交通场景的相关信息经常被“稀释”,并且因此可能没有充分地被映射到潜在特征上。因此,通过本专利技术而提出了以语义区分的方式对各个分块的信息内容进行使用。通过这种方式,还可以提取各个分块的图像内容之间的不同语义关系并将其映射到潜在特征上。
2、根据本专利技术,这通过如下方式来实现:将场景特定信息分布到场景表示的至少两个语义层面(ebene)上并且在划分为多个分块时维持(beibehalten)该分布。基于分块和语义层面而形成至少一种类型的子分块(unterkacheln),其中,一种类型的所述子分块分别通过分块的至少两个语义层面的定义该类型的子集来形成。于是,在将基于网格的场景表示映射到潜在特征上时,考虑至少一种类型的子分块之间的语义关系。
3、因此,本专利技术的核心思想在于,将聚合的场景特定信息分布到基于网格的场景表示的不同语义层面,并根据这些层的语义来划分每个分块。根据类型而定,以这种方式定义的子分块可以包括仅一个语义层面或者也可以包括多个语义层面。根据本专利技术,可以以有针对性的方式对一个或多个语本文档来自技高网...
【技术保护点】
1.一种用于交通场景的至少一个参与者的行为规划的计算机实现的方法,
2.根据权利要求1所述的方法,其特征在于,当将所述基于网格的场景表示(30)映射到所述潜在特征上时,考虑相同类型的子分块(351、352、353、354)之间和/或不同类型的子分块(351、352、353、354)之间的语义关系。
3.根据权利要求1或2中的一项所述的方法,其特征在于,所述基于网格的场景表示包括场景特定的原始传感器数据和/或场景特定的原始传感器数据的语义评估的结果。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述场景表示的至少一个第一语义层面包括来自所述交通场景的一个或多个参与者的位置和/或运动信息,并且所述场景表示的至少一个第二语义层面包括关于所述交通场景中的静态对象和/或基础设施要素的信息。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于网格的场景表示(30)以三维场景张量(30)的形式而示出,其中所述场景张量(30)的前两个维度(x,y)表示所述交通场景的空间区域,并且所述场景张量(30)在第三维度(z)中的各个层通
6.根据权利要求5所述的方法,其特征在于,通过如下方式将所述场景表示(30)划分为多个分块(35):将所述场景表示划分为所述场景张量(30)的第一维度(x)和/或第二维度(y),同时维持所述场景张量(30)的第三维度(z),使得产生的子场景张量(35)分别表示具有所述场景张量(30)的所有语义层面的所述交通场景的子区域。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在针对所述基于网格的场景表示生成所述潜在特征时,考虑至少一个较早时间点的至少一个另外的基于网格的场景表示,其中,特别是考虑所述基于网格的场景表示的时间序列。
8.根据权利要求1至7中任一项所述的方法,其特征在于,为了将所述基于网格的场景表示(30)映射到潜在特征上,使用DL架构(37、38),所述DL架构在第一步中生成针对所述子分块的嵌入,并且在第二步中,基于以这种方式生成的嵌入而生成所述潜在特征。
9.一种用于交通场景的至少一个参与者的行为规划的计算机实现的系统(100),所述系统至少包括:
10.根据权利要求9所述的系统(100),其特征在于,为了将所述基于网格的场景表示映射到潜在特征上,所述DL架构(3)包括以下组件:
11.根据权利要求10所述的系统(100),其特征在于,所述DL架构(3)包括用于生成针对不同类型的子分块的嵌入的多个神经嵌入网络(4),并且所述处理网络(5)被设计成,在生成所述潜在特征时考虑不同类型的子分块的嵌入。
12.根据权利要求9至11中任一项所述的系统,其特征在于,所述处理网络被设计成,在针对所述基于网格的场景表示生成所述潜在特征时,考虑至少一个较早时间点的至少一个另外的基于网格的场景表示,并且特别是考虑所述基于网格的场景表示的时间序列。
...【技术特征摘要】
1.一种用于交通场景的至少一个参与者的行为规划的计算机实现的方法,
2.根据权利要求1所述的方法,其特征在于,当将所述基于网格的场景表示(30)映射到所述潜在特征上时,考虑相同类型的子分块(351、352、353、354)之间和/或不同类型的子分块(351、352、353、354)之间的语义关系。
3.根据权利要求1或2中的一项所述的方法,其特征在于,所述基于网格的场景表示包括场景特定的原始传感器数据和/或场景特定的原始传感器数据的语义评估的结果。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述场景表示的至少一个第一语义层面包括来自所述交通场景的一个或多个参与者的位置和/或运动信息,并且所述场景表示的至少一个第二语义层面包括关于所述交通场景中的静态对象和/或基础设施要素的信息。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于网格的场景表示(30)以三维场景张量(30)的形式而示出,其中所述场景张量(30)的前两个维度(x,y)表示所述交通场景的空间区域,并且所述场景张量(30)在第三维度(z)中的各个层通过所述场景表示(30)的至少两个语义层面而形成。
6.根据权利要求5所述的方法,其特征在于,通过如下方式将所述场景表示(30)划分为多个分块(35):将所述场景表示划分为所述场景张量(30)的第一维度(x)和/或第二维度(y),同时维持所述场景张量(30)的第三维度(z),使得产生的子场景张...
【专利技术属性】
技术研发人员:M·多尔戈夫,F·詹乔斯,Y·沈,
申请(专利权)人:罗伯特·博世有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。