当前位置: 首页 > 专利查询>浙江大学专利>正文

基于非结构化文本数据的OPCUA信息模型构建方法技术

技术编号:38077358 阅读:12 留言:0更新日期:2023-07-06 08:45
本发明专利技术公开了一种基于非结构化文本数据的OPC UA信息模型构建方法,主要解决现有OPC UA信息模型建模往往依赖于结构化数据并且缺乏来自文本数据的描述信息等问题,实现步骤包括:设计基于语料文本特征的、符合工业现场建模需求的标注标签,并设计标签的组织关系;为提取的样本文本素材进行BIO序列化标注,得到训练样本;构造基于BERT模型的中文预训练模型提取词向量;基于CRF技术,处理、分类并标注词向量;利用训练完成的模型提取文本中有效实体,并按预先定义的组织规则进行模型组织。本发明专利技术构建了工业非结构化文本样本数据,设计了利用文本语料的实体标签提取方法并用于信息模型构建,拓宽了信息模型构建方法的应用场景,操作方法简单明了,有实用价值。有实用价值。有实用价值。

【技术实现步骤摘要】
基于非结构化文本数据的OPC UA信息模型构建方法


[0001]本专利技术属于工业自动化
,尤其涉及OPC UA信息模型的构建方法,具体是一种基于非结构化文本数据的OPC UA信息模型构建方法,可用于工业现场环境智能化模型抽象构造,实现工业智能化。

技术介绍

[0002][0003]生产线设备的数字化转型变得越来越有必要。OPC是一项应用于自动化行业及其他行业的数据安全交换可互操作性标准,由行业供应商、终端用户和软件开发者共同制定。这些规范定义了客户端与服务器之间以及服务器与服务器之间的接口,比如访问实时数据、监控报警和事件、访问历史数据和其他应用程序等。OPC标准于1996年首次发布,其目的是把可编程逻辑控制器(programmable logic controller,PLC)特定的协议(如Modbus,Profibus等)抽象成为标准化的接口,作为“中间人”的角色把通用的OPC“读写”请求转换成具体的设备协议来与HMI/SCADA系统直接对接,反之亦然。就此出现了一个完整的产品行业,终端用户可以借助其来最优化产品,通过OPC协议来实现系统的无缝交互。当前,OPC统一架构(OPC UA)信息模型已被用作在各个工业领域构建物理设备数字图像的有效方法,从而可以实现通过虚拟副本进行传感和控制。
[0004]由于OPC UA信息模型是面向对象的,因此构建信息模型的常用方法是由经验丰富的工程师自己手动定义节点。因为他们对整个产品线的了解,只要在生产线上的设备属性就知道了。此外,使用模型构建工具也是一种选择。也一些研究尝试通过将其他格式模型映射到OPC UA信息模型来构建模型。还有一些研究利用其他模式工业信息的工业数据库来构建信息模型。
[0005]然而,上述所有传统手段方法都忽略了利用工业领域中丰富的非结构化文本信息。在为信息模型构建设计可行的解决方案时,现有的研究总是关注结构化数据,如知识图谱、其他模型等。而有价值的非结构化数据(如文本)文本中存在一些冗余信息,可能会干扰有用信息的提取。因此,重要的是找到一种新颖的方法来从复杂的文本中获取我们想要的信息。这个过程中,设计具有先验知识的实体结构规则也是必不可少的。目前国内各企业、研究机构对于OPC UA信息模型建模技术的研究仍然不充分,处于较为初级的阶段,也没有成熟的OPC UA信息模型建模技术应用解决方案可以供工业物联方面的改造所用,尤其是缺乏对OPC UA信息模型构建语料来源相关的研究。
[0006]此外,在实际应用中,建立信息模型的工程师难以掌握全部的工业设备机理,当存在未知设备时,往往难以获得准确的模型信息。需要一种泛用性强的,易于实践的信息模型建立方法。
[0007]面对这一情况,基于非结构化文本的OPC UA信息模型构建方法的应用研究有着较大的研究意义,可以很好地推动工业现场智能化改造进度,降低工业现场智能化改造难度。

技术实现思路

[0008]本专利技术关注了现场设备的文本,提出了一种信息模型构建过程,该过程可以充分利用以前过程中没有使用的文本数据。本专利技术使用BERT模型结合条件随机场CRF从原始文本中提取标记实体,并使用预定义的标记关系通过提取的实体构建信息模型。本专利技术首先在工业领域实现文本实体识别方法,并建立工业序列标记的样本集,以微调BERT模型,从而获得良好的提取结果。本专利技术设计了一种新的信息模型构建方法:使用语言处理模型BERT分析文本并通过运行顺序标记从文本中提取实体。通过预定义的标签关系,按照事先设定的方式组织实体,以满足OPC UA的标准。
[0009]本专利技术的目的是通过以下技术方案来实现的:一种基于非结构化文本数据的OPC UA信息模型构建方法,包含以下步骤:
[0010](1)设计基于语料文本特征的、符合工业现场建模需求的标注标签,并设计标签的组织关系,即使用不同层级的描述标签,最高级为模型描述对象,其下为对象的属性以及属性值;
[0011](2)为设备描述说明文档中提取得到的样本文本素材基于不同层级的描述标签进行BIO序列化标注,得到训练样本;
[0012](3)构造基于BERT模型的中文预训练模型对步骤(2)标注后的样本文本进行词向量提取;
[0013](4)基于CRF技术,处理、分类并标注步骤(3)提取的词向量;
[0014](5)利用步骤(2)得到的训练样本对BERT和CRF结合的文本处理模型进行训练;
[0015](6)利用训练完成的文本处理模型提取文本中有效的实体,并按预先定义的组织规则进行模型组织,即使用文本处理模型提取标签中的实体文本,并按照预先定义的标签关系进行实体组织,针对相关的实体标签,最终构建面向对象的OPC UA信息模型。
[0016]进一步地,步骤(1)中,面向对象的OPC UA的信息模型节点被抽象为实体的标签,并按照信息模型节点原有的组织结构进行实体标签关系的定义,后续即可按照预定义的关系进行模型构建。
[0017]进一步地,步骤(1)中,对于OPC UA的信息模型,设计包含对象、对象属性特性以及属性值这三个层次的标签,具体地,包括模型描述对象OBJ、组件COM、属性ATT和属性值VAL这四类标签。
[0018]进一步地,步骤(2)中描述的BIO标注样本数据对于工业领域数据的标注,具体如下:
[0019]①
使用符合工业领域建模要求的标签对工业领域非结构化文本数据进行BIO标注;
[0020]②
标注本身考虑到了信息模型的标签组织关系,定义了符合OPC UA信息模型结构要求的标签关系,模型标签按照对象、属性特征和相关属性值这三层设计,能够直接对应于OPC UA信息模型的对象、节点和变量。
[0021]进一步地,步骤(2)中,文本素材采用设计的模型描述对象OBJ、组件COM、属性ATT和属性值VAL这四类标签对其一一标注,非目标信息的冗余字词被划分为O标签,目标信息的首字被标注为B,后续的字被标注为I。
[0022]进一步地,步骤(2)中,标注完成后进一步对原文本进行增强:通过回译含有目标
信息文本的方法将标注标签文本进行翻译,根据O标签的分布情况,将回译文本插入原文本中合适的位置,插入方法如下:通过计算某一段落中O标签出现的频率,如果频率值超过设定的阈值,则将待插入的回译文本插入当前段落位置;所有段落遍历完成后,如果仍有回译文本剩余,则将剩余部分插入到整个样本的末尾。
[0023]进一步地,步骤(3)、(4)中,标签标注与实体提取方法应用于少量样本的训练过程:
[0024]①
BERT模型为预训练模型,在预训练过程中利用大规模的运算资源实现了中文文本信息的隐含信息提取,研究中在尽心训练时采用微调的方法,进行少量轮次(3到6轮)的训练实现模型的迁移,符合工业现场需求与实际运行需求;
[0025]②
BERT模型能够较好地利用文本的上下文信息,利用遮盖的方法,遮盖部分词语并对遮盖的词语进行预测,得到包含了丰富的上下文信息的模型;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于非结构化文本数据的OPC UA信息模型构建方法,其特征在于,包含以下步骤:(1)设计基于语料文本特征的、符合工业现场建模需求的标注标签,并设计标签的组织关系,即使用不同层级的描述标签,最高级为模型描述对象,其下为对象的属性以及属性值;(2)为设备描述说明文档中提取得到的样本文本素材基于不同层级的描述标签进行BIO序列化标注,得到训练样本;(3)构造基于BERT模型的中文预训练模型对步骤(2)标注后的样本文本进行词向量提取;(4)基于CRF技术,处理、分类并标注步骤(3)提取的词向量;(5)利用步骤(2)得到的训练样本对BERT和CRF结合的文本处理模型进行训练;(6)利用训练完成的文本处理模型提取文本中有效的实体,并按预先定义的组织规则进行模型组织,即使用文本处理模型提取标签中的实体文本,并按照预先定义的标签关系进行实体组织,针对相关的实体标签,最终构建面向对象的OPC UA信息模型。2.根据权利要求1所述的基于非结构化文本数据的OPC UA信息模型构建方法,其特征在于,步骤(1)中,面向对象的OPC UA的信息模型节点被抽象为实体的标签,并按照信息模型节点原有的组织结构进行实体标签关系的定义,后续即可按照预定义的关系进行模型构建。3.根据权利要求1所述的基于非结构化文本数据的OPC UA信息模型构建方法,其特征在于,步骤(1)中,对于OPC UA的信息模型,设计包含对象、对象属性特性以及属性值这三个层次的标签,具体地,包括模型描述对象OBJ、组件COM、属性ATT和属性值VAL这四类标签。4.根据权利要求1所述的基于非结构化文本数据的OPC UA信息模型构建方法,其特征在于,步骤(2)中描述的BIO标注样本数据对于工业领域数据的标注,具体如下:

使用符合工业领域建模要求的标签对工业领域非结构化文本数据进行BIO标注;

标注本身考虑到了信息模型的标签组织关系,定义了符合OPC UA信息模型结构要求的标签关系,模型标签按照对象、属性特征和相关属性值这三层设计,能够直接对应于OPC UA信息模型的对象、节点和变量。5.根据权利要求3所述的基于非结构化文本数据的OPC UA信息模型构建方法,其特征在于,步骤(2)中,文本素材采用设计的模型描述对象OBJ、组件COM、属性ATT和属性值VAL这四类标签对其一一标注,非目标信息的冗余字词被划分为O标签,目标信息的首字被标注为B,后续的字被标注为I。6.根据权利要求5所述的基于非结构化文本数据的OPC UA信息模型构建方法,其特征在于,步骤(2)中,标注完成后进一步对原文本进行增强:通过回译含有目标信息文本的方法将标注标签文本进行翻译,根据O标签的分布情况,将回译文本插入原文本中合适的位置,插入方法如下:通过计算某一段落中O标签出现的频率,如果频率值超过设定的阈值,则将待插入的回译文本插入当前段落位置;所有段落遍历完成后,如果仍有回译文本剩余,则将剩余部...

【专利技术属性】
技术研发人员:刘洋史治国贺诗波顾超杰陈彩莲
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1