训练数据生成器和生成训练数据集的方法技术

技术编号:38215487 阅读:9 留言:0更新日期:2023-07-25 11:23
本发明专利技术涉及一种训练数据生成器,包括:接口,所述接口被设置为读入从为技术设施提供的数字设施规划中提取的符号,其中设施规划分别借助于符号描绘技术设施的结构和/或功能并且是相同类型的;存储模块,所述存储模块被设置为存储所提取的符号;选择模块,所述选择模块被设置为借助于随机生成器随机选择所存储的符号的符号子集;生成器,所述生成器被设置为根据所选择的符号子集生成至少一个合成设施规划;和输出模块,所述输出模块被设置为输出所述至少一个合成设施规划作为训练数据,用于训练可训练的图像识别模块,其中可训练的图像识别模块被设置为基于技术设施的模拟设施规划生成数字设施规划。划生成数字设施规划。划生成数字设施规划。

【技术实现步骤摘要】
【国外来华专利技术】训练数据生成器和生成训练数据集的方法


[0001]本专利技术涉及一种训练数据生成器和一种生成用于训练可训练的图像识别模块的训练数据集的方法,以及一种计算机程序产品。

技术介绍

[0002]技术设施和系统的建造、设计、运行和/或维护需要示意性的规划/设施规划。对于现有设施而言,这些规划通常仅以纸质形式存在或作为图形文件存在。此外,不存在标准化的交换格式,从而规划通常对相同的技术对象、设备和/或功能具有不同的标志/符号,或者在产生或维护这种规划时遵循不同的约定。
[0003]这种技术设施的维护、拆除或改建需要将规划信息作为工程工具中的数字化可编辑模型,即为此必须将现有的纸质规划数字化。在数字化时,对规划文件上描绘的符号的识别和/或分类尤为重要。特别是可以将受监督机器学习的方法用于数字化。这些方法在所谓的训练阶段通过示例规划进行训练,所述示例规划具有对在那里描绘的符号、所述符号的类型及其位置的现有注释,以便能够稍后在所谓的推理阶段在新的未知规划文件上再次识别对应的符号。为了使用这种方法实现高水平的识别准确度,必须基于极大量带注释的规划示例来训练这种方法。然而往往无法保证如此大量的训练数据,即如此大量的设施规划或符号示例。
[0004]从US 2019/080164 A1公知一种借助于机器学习方法在P&ID规划(英语:Piping

and

Instrumation

Diagram,管道和仪表图,简称P&ID)中进行文本识别的方法。

技术实现思路

[0005]因此,本专利技术的任务是实现提供足够数量的训练数据的可能性,以例如对用于数字化这种设施规划的经过训练的方法实现高水平的识别准确度。
[0006]该任务通过独立权利要求中描述的措施解决。本专利技术的有利扩展在从属权利要求中给出。
[0007]根据第一方面,本专利技术涉及一种训练数据生成器,包括:
[0008]‑
接口,所述接口被设置为读入从为技术设施提供的数字设施规划中提取的符号以及为了在设施规划中定位符号而提供的定位规则,其中所述设施规划分别借助于符号描绘技术设施的结构和/或功能并且是相同类型的,其中符号描绘所述技术系统或技术功能,并且其中至少一个定位规则致力于所述符号在设施规划上的相对定位、所述符号关于注释的相对定位、与另外的符号的预给定耦合,和/或对至少一个另外的符号的特定于符号的依赖性,
[0009]‑
存储模块,所述存储模块被设置为存储所提取的符号,
[0010]‑
选择模块,所述选择模块被设置为借助于随机生成器随机选择所存储的符号的符号子集,
[0011]‑
生成器,所述生成器被设置为根据所选择的符号子集并根据至少一个定位规则
生成至少一个合成设施规划,和
[0012]‑
输出模块,所述输出模块被设置为输出所述至少一个合成设施规划作为训练数据,用于训练可训练的图像识别模块。
[0013]在以下描述中,除非另有说明,否则术语“执行”、“计算”、“计算机辅助”、“计算”、“确定”、“生成”、“配置”、“重建”等优选地涉及改变和/或产生数据和/或将数据转换为其他数据的操作和/或过程和/或处理步骤,其中所述数据特别是可以被表示为物理变量或作为物理变量存在,例如作为电脉冲。特别地,表述“计算机”应尽可能广泛地解释,以特别是涵盖所有具有数据处理特性的电子设备。因此,计算机例如可以是个人计算机、服务器、存储器可编程控制器(SPS)、手持计算机系统、袖珍PC设备、移动无线电设备和其他可以计算机辅助地处理数据的通信设备、处理器和其他用于数据处理的电子设备。
[0014]结合本专利技术,“计算机辅助”例如可以理解为方法的一种实施,其中特别是处理器执行该方法的至少一个方法步骤。
[0015]根据本专利技术的训练数据生成器例如可以包括处理器。结合本专利技术,处理器例如可以理解为机器或电子电路。处理器特别可以是主处理器(英语:Central Processing Unit,CPU)、微处理器或微控制器,例如专用集成电路或数字信号处理器,可能与用于存储程序指令的存储单元等组合。处理器例如也可以是IC(集成电路),特别是FPGA(现场可编程门阵列)或ASIC(专用集成电路),或DSP(数字信号处理器)或GPU(图形处理单元)。处理器也可以理解为虚拟处理器、虚拟机或软CPU。例如,它也可以是可编程处理器,其配备有用于执行所述的根据本专利技术的方法的配置步骤或者配置有配置步骤,使得可编程处理器实现本专利技术的方法、组件、模块或其他方面和/或部分方面的根据本专利技术的特征。
[0016]结合本专利技术,“存储单元”或“存储模块”等可以理解为例如工作存储器(英语:Random

Access Memory,RAM)形式的易失性存储器或诸如硬盘或数据载体的永久存储器。
[0017]结合本专利技术,“模块”可以理解为例如处理器和/或用于存储程序指令的存储单元。例如,处理器被专门设置为执行程序指令,以便处理器执行功能以实施或实现根据本专利技术的方法或根据本专利技术的方法的步骤。
[0018]结合本专利技术,“数字设施规划”——在下文中也称为(数字)规划——特别是可以理解为技术系统的连接图、电路图、功能规划或管道图/管道和仪表流图(英语:Piping

and

Instrumation

Diagram,简称:P&ID)。设施规划示意性地描绘了技术系统、其特性、其功能和/或分配给该技术系统的信息。设施规划特别是可以以数字化形式存在,例如作为PDF文件存在。
[0019]结合本专利技术,“技术系统”可以特别是理解为技术设施,例如工业设施/工厂设施、技术设备或机器,或诸如供水网络的基础设施网络、方法技术设施,但也理解为诸如电路图、逻辑图或HVAC的部分方面。
[0020]结合本专利技术,“合成设施规划”特别是可以理解为人工产生的设施规划,其例如不描绘真实的技术系统或者不分配给真实的技术系统。特别地,合成设施规划首先可以被创建为由选择的符号组成的网络列表,即规划元素之间的例如电气连接、方法技术连接和/或逻辑连接的文本描述。换句话说,合成设施规划也可以仅作为网络列表存在。
[0021]合成设施规划优选类似于数字化设施规划,即具有可类比的特性和/或符号。例如,合成设施规划在符号数量上不同于技术设施的设施规划。合成设施规划例如可以具有
对技术系统的设施规划的补充或修改。
[0022]规划/设施规划特别是包括大量符号。结合本专利技术,“符号”例如可以理解为描述技术系统或技术功能的标记、连接线、图形表示等。例如,管道图的符号可以描绘泵、阀或管道。这些符号优选已经从至少一个设施规划中提取出来。例如,可以读入符号库。特别地,分配给符号并描述这些符号的信息可以存储在符号库中。
[0023]结合本专利技术,“可训练的图像识别模块”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练数据生成器(100),包括

接口(101),所述接口被设置为读入从为技术设施提供的数字设施规划中提取的符号以及为了在设施规划中定位符号而提供的定位规则,其中所述设施规划分别借助于符号描绘技术设施的结构和/或功能并且是相同类型的,其中符号描绘所述技术系统或技术功能,并且其中至少一个定位规则致力于所述符号在设施规划上的相对定位、所述符号关于注释的相对定位、与另外的符号的预给定耦合,和/或对至少一个另外的符号的特定于符号的依赖性,

存储模块(102),所述存储模块被设置为存储所提取的符号,

选择模块(103),所述选择模块被设置为借助于随机生成器随机选择所存储的符号的符号子集,

生成器(104),所述生成器被设置为根据所选择的符号子集并根据至少一个定位规则生成至少一个合成设施规划,和

输出模块(105),所述输出模块被设置为输出所述至少一个合成设施规划作为训练数据,用于训练可训练的图像识别模块。2.根据权利要求1所述的训练数据生成器,其中,所述接口(101)还被设置为附加地读入分配给相应符号的以下附加信息中的至少一个并传送到所述存储模块以存储该附加信息:

分配给符号的关于到其他符号的连接可能性的信息,

关于分配给符号的注释的信息,

所述符号和/或所述符号的一部分的表示形式,和/或

所述符号的表示信息。3.根据权利要求2所述的训练数据生成器(100),其中,所述接口(101)还被设置用于为注释读入与所述符号的相对位置和/或所述注释的尺寸。4.根据前述权利要求中任一项所述的训练数据生成器(100),其中,所述生成器(104)还被设置为根据附加信息生成至少一个合成设施规划。5.根据前述权利要求中任一项所述的训练数据生成器(100),其中,所述生成器(1...

【专利技术属性】
技术研发人员:M
申请(专利权)人:西门子股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1