System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及用于形式化不受控数据格式输入的计算机实现的方法和设备。
技术介绍
1、如今,作为工程和操作相关内容的示例,不受控工程意图被手动翻译或者换言之被转换为受控表示,例如转换为本体工程意图模型表示,以便基于此进行进一步处理,例如在过程自动化工具工作流的背景下。
2、尽管如此,对于产生本体工程意图表示或以其他方式将不受控数据格式输入形式化为可以进一步处理的受控数据格式输出,只需要知情的过程和自动化工程领域专家和本体专家的手动努力。尽管如此,即使对于专家来说,这也很容易出错。
3、因此,需要一种改进的方法来形式化这种不受控数据格式输入,如工程意图。
技术实现思路
1、本专利技术由独立权利要求的主题限定。本专利技术的附加特征在从属权利要求中给出。
2、根据本专利技术的一个方面,一种用于形式化不受控数据格式输入的计算机实现的方法包括以下步骤。通过输入接口获取不受控数据格式输入。通过输入处理算法确定所获取的不受控数据格式输入在由多个预处理嵌入产生的嵌入空间中的嵌入,其中嵌入由嵌入向量表示,其中嵌入向量包括指定嵌入的多个向量条目。通过输出处理算法使用(上述确定的)嵌入对受控数据格式输出进行形式化。通过输出接口输出受控数据格式输出。
3、本文中使用的术语“形式化”描述了将不受控数据格式输入(特别是以嵌入向量的形式)变换或转换为受控数据格式输出。例如,形式化包括将工程意图的嵌入向量转换为可以在工程工作流中进一步处理的本体表示。
4、本文
5、换言之,本文中使用的术语“嵌入”是输入的抽象表示、特别是其潜在语义表示。更优选地,嵌入是输入的向量表示,称为嵌入向量。例如,嵌入是关于工程意图的单词、句子和/或公式的有意义的向量表示。嵌入优选地通过自然语言处理技术或从语言模型来获取或学习。
6、优选地,受控数据格式输出包括数据格式、模式或本体。受控数据格式输出是一种已知目标格式,其可以自动进一步处理,特别是通过工程工作流中的其他工具。换言之,该方法允许以表示不受控数据格式输入的内容的方式来形式化受控数据格式输出。此外,不受控数据格式输入还可以包括以受控数据格式表示的信息,但这些信息是作为不受控输入提供的,例如json文件的格式和结构良好的内容,但以纯文本形式提供。
7、优选地,输入处理算法包括神经网络,称为输入层。
8、优选地,输出处理算法包括神经网络,称为输出层。
9、优选地,嵌入空间是(a)通过自然语言处理算法(例如,大型语言模型(llm))而获取的预训练的最先进的开源嵌入,或(b)使用领域特定输入和标准nlp算法而获取的专有训练的嵌入,或(c)(a)或(b)加上一组预处理的领域特定概念/术语/输入,以由输入处理算法已经确定的抽象/潜在语义表示而表示的。特别地,嵌入空间中的这些预处理嵌入可以表示工程或操作内容的受控/结构化(例如,本体)表示。此外,例如,该嵌入空间中的这些预处理嵌入可以被存储在嵌入数据库中。
10、优选地,指定嵌入(即,在嵌入空间中为其分配n维向量(即,位置的排序))也可以称为对输入进行分类(分类为“位置”的/在“位置”周围的“区域”/“气泡”)。
11、优选地,该向量被表示为归一化向量。
12、优选地,提供变换器模型,该变换器模型还优选地包括编码器模型和解码器模型。由输入处理算法进行的对所获取的不受控数据格式输入的嵌入的确定对应于编码器模型。然后将抽象/潜在语义嵌入表示用作解码器模型的输入,以确定受控数据格式输出。
13、因此,该方法提供了一种流水线,该流水线用于经由抽象/潜在语义表示(嵌入)将不受控数据格式输入(如工程或操作内容)分析、分类/计算和形式化为受控数据格式输出(如工程和操作内容的本体表示),该受控数据格式输出特别地可以在工程工作流中进一步使用。
14、因此,提供了一种改进的自动化的方式来形式化不受控数据格式输入。
15、在优选实施例中,不受控数据格式输入包括工程或操作相关内容。
16、优选地,工程或操作相关内容包括工程意图、过程工程规范、自动化工程规范、工程配方和操作规范中的任何一项。
17、换言之,工程或操作相关内容包括工程工作流的整个“生命周期”内的任何工程知识。例如,这从过程工程(例如,化学工程)开始,经由自动化工程(例如,自动化和控制工程),直到操作(即,在工厂建立和操作时)。换言之,工程或操作相关内容包括与工业过程工厂的工程阶段和/或操作阶段两者相关的内容。
18、例如,操作规范包括启动和/或停止服务、或改变产品的配方。
19、因此,工程或操作相关内容可以被形式化为受控数据格式输出,该受控数据格式输出可以在工程工作流中进一步使用。此外,工程或操作内容以工程过程中的任何特定利益相关者都可以处理和理解的格式来提供。因此,可以消除利益相关者(例如,自动化工程师和过程工程师)之间的信息差。
20、因此,提供了一种改进的自动化的方式来形式化工程或操作内容的形式的不受控数据格式输入。
21、在优选实施例中,通过输入处理算法确定所获取的不受控数据格式输入的嵌入包括:在不受控数据格式输入中标识工程或操作内容,并且基于所标识的工程或操作内容来确定嵌入。
22、优选地,工程或操作内容通过机器学习模型从不受控数据格式输入中提取。例如,如果工程或操作内容被包含在自然语言输入或不受控文本输入中,则使用自然语言处理技术从不受控数据格式输入中标识工程或操作内容。然后,使用工程或操作内容来确定表示工程或操作内容的相应嵌入向量的值。
23、因此,提供了一种改进的方法来形式化工程或操作内容的形式的不受控数据格式输入。
24、在优选实施例中,不受控数据格式输入包括自然语言输入或不受控文本输入。
25、换言之,不受控数据格式输入包括文本和/或语音形式的不受控输入。
26、例如,该方法将工程或操作内容、优选地是自然语言工程意图变换为形式化的本体工程意图表示。
27、此外,不受控数据格式输入还可以包括以受控数据格式表示的信息,但这些信息是作为不受控输入提供的,例如json文件的格式和结构良好的内容,但以纯文本形式提供。
28、例如,文本还包含除字母外还带有数字或其他符号的表。
29、因此,文本形式的不受控数据格式输入可以包括诗歌或控制叙事中的文本,也可以包括带有数字、变量、表格等的非结构化文本(即,不是图像/音频/视频的任何文本)。
30、因此,提供了一种改进的和自动化的方式来形式化工程或操作内容的形式的不受控数据格式输入。
31、在优选实施例中,通过输入处理算法确定所获取的不受控数据格式输入的嵌入包括:在嵌入空间中标识在预定本文档来自技高网...
【技术保护点】
1.一种用于形式化不受控数据格式输入的计算机实现的方法,包括以下步骤:
2.根据权利要求1所述的方法,
3.根据权利要求2所述的方法,
4.根据前述权利要求中任一项所述的方法,
5.根据前述权利要求中任一项所述的方法,
6.根据权利要求5所述的方法,
7.根据前述权利要求中任一项所述的方法,
8.根据前述权利要求中任一项所述的方法,
9.根据前述权利要求中任一项所述的方法,
10.根据前述权利要求中任一项所述的方法,
11.根据权利要求10所述的方法,
12.根据权利要求9至11中任一项所述的方法,
13.一种用于形式化不受控数据格式输入的设备,包括:
14.一种计算机程序,包括指令,当所述程序由计算机执行时,所述指令引起所述计算机执行根据权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读介质,包括指令,所述指令在由计算机执行时引起所述计算机执行根据权利要求14所述的方法的步骤。
【技术特征摘要】
1.一种用于形式化不受控数据格式输入的计算机实现的方法,包括以下步骤:
2.根据权利要求1所述的方法,
3.根据权利要求2所述的方法,
4.根据前述权利要求中任一项所述的方法,
5.根据前述权利要求中任一项所述的方法,
6.根据权利要求5所述的方法,
7.根据前述权利要求中任一项所述的方法,
8.根据前述权利要求中任一项所述的方法,
9.根据前述权利要求中任一项所述的方法,
...
【专利技术属性】
技术研发人员:尼古拉·肖赫,马里奥·霍尼茨克,
申请(专利权)人:ABB瑞士股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。