System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多源异构数据的本体重构与映射方法技术_技高网

一种多源异构数据的本体重构与映射方法技术

技术编号:41184219 阅读:6 留言:0更新日期:2024-05-07 22:17
本发明专利技术涉及一种多源异构数据的本体重构与映射方法,通过分析执法监督数据的特点,将指标进行了合并和标准化;为解决数据异构性、动态性、人工处理的高错误率,采用了基于混合神经网络文本分类的多源异构数据的本体重构方式:利用多核卷积神经网络抓取局部特征;引入双向长短期记忆网络获取上下文相关信息;引入注意力机制,提高精度,将预处理完成的文本数据通过word2vec训练词向量,通过embeding层得到句子矩阵,将句子矩阵输入到模型中,训练深度学习模型,从而实现了本体重构。

【技术实现步骤摘要】

本专利技术属于计算机科学与,尤其涉及一种多源异构数据的本体重构与映射方法


技术介绍

1、执法监督数据量随着文书电子化进程快速增长,给数据的查询、使用带来了极大的难度。执法监督文本数据包含复杂语义,且数据形式多样化,主要体现在司法监督制度的运行和数据统计的对象和范围上:从数据统计制度的运行方面来说,执法监督数据统计是由各司法单位的各个部门经过汇总而来,各部门的统计标准不一,各单位间数据指标设置、计算方法等存在较大差异;从数据统计的对象和范围来看,执法监督的多元化导致数据对执法监督发展决策的支撑力的多元化,数据统计的对象和范围越来越大,对数据准确性和实效性的要求越来越高。面对形式多样且数据量庞大的执法监督本体数据,无法一步到位解决问题,将多个异构本体进行本体重构,是处理问题的基础步骤。基于深度学习的神经网络模型可以利用网络分层特征来抓取文本的特征表示,代替了手工获取特征,从而提高文本重构的精确率和效率。对本体进行映射步骤中,一般是通过计算本体的节点相似度,通过相同或相似的节点以及取值来判断本体之间是否可以进行映射。在传统的本体映射方法中一般是运用节点相似度以及文本相似度来解决问题。深度学习一般会将本体映射问题转换为匹配相似度问题去解决。

2、执法监督数据高维度的特点很容易使深度学习模型复杂度飙升,从而造成维度灾难,通常情况下,解决这一难题的方法是对数据集进行降维操作,剔除相关度较低的维度,保留相关度较高的维度。一般情况下,组织较为良好的本体内的词汇具有高度的内聚性。但是目前在执法监督本体的开发过程中依然存在着两种较为极端的问题:第一种是将海量的词汇定义于单个规模的大本体当中,而这些词汇从某种意义上来说属于多个领域;第二种是在语义层面上高度相似的词汇分散在不同的本体结构中,也就是说对词汇的组织缺乏较为统一的规范。这将使得本体发挥的作用变的低效。一种较为有效的方法就是将所有本体中的词汇全部打散,然后进行重新组织梳理,以达到能够支撑上层业务需求的效果,这便是重构的过程。这种重构将会打破本体之间的边界,通常会按照词汇之间的语义相关性,按照开发人员对词汇的原始组织方式进行重构,相关性较高的词汇会被研究人员重新组织成为″定义本体”,以便后续步骤的再次利用。然而目前的本体重构技术的应用具有较大的局限性,由于应用领域成本高风险大,并且较为集中以及需要大量人工等特点,使得本体重构面临着巨大的挑战。无论是哪种本体重构的研究,都避免不了大量的计算以及人工的参与,在大数据的环境之下,更加加重了研究者的工作量。


技术实现思路

1、本专利技术的目的是利用深度神经网络结合概念及结构两方面,提供一种基于执法监督领域多源异构数据的本体重构与映射方法。

2、本专利技术的技术方案如下:

3、一种多源异构数据的本体重构与映射方法,其特征在于,包括以下步骤:

4、步骤一:给定两个主题相似的本体qi,qj。两个本体在概念、结构上并不完全相同,并将所有结点标记为1;

5、步骤二:以本体qi中某一结点为基准,遍历本体qj中所有结点。若结点的概念和结构相似或相同,则将结点的状态标记为0并跳转到步骤三;否则,跳转到步骤四;

6、步骤三:遍历本体qi,qj中相似节点的子节点,若存在概念和结构相同或相似的结点,进行融合并将结点的状态标记为0,若不同,则将本体qj中的相关结点添加到oi中的相应层级中,并将结点的状态标记为0。继续向下进行遍历,直到叶子结点;之后返回步骤二;

7、步骤四:继续向下进行遍历,直到遍历到最终的叶子结点;

8、步骤五:遍历本体qj中所有状态为1的节点,并按照树形结构向上寻找距离该节点最近的标记为0的父节点,并将该节点添加该父节点对应的qi本体之下的相应层级中,并将该节点的状态修改为0;

9、步骤六:继续遍历状态为1的节点,直到所有节点的状态值均为0。

10、本方法针对执法监督领域多源异构数据的异构性和动态性的特点提出了基于混合神经网络文本分类的多源异构数据的本体重构方法,有效地对原始本体进行了重构,减少了人工的参与,提高了重构的效率。并提出了基于自动编码器相似度匹配的本体映射方法,在异源数据之间建立了映射关系,为打破执法监督领域数据壁垒,实现数据间共享提供支撑。

本文档来自技高网...

【技术保护点】

1.一种多源异构数据的本体重构与映射方法,其特征在于,包括以下步骤:

【技术特征摘要】

1.一种多源异构数据的本体重构与映...

【专利技术属性】
技术研发人员:朱辰光
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1