一种基于深度学习的机器人数据互操作领域本体构建方法技术

技术编号:20724976 阅读:34 留言:0更新日期:2019-03-30 17:42
本发明专利技术请求保护一种基于深度学习的机器人数据互操作领域本体构建方法,包括数据源的预处理,基于深度学习的机器人领域术语提取和概念抽取,构建机器人数据与概念之间的关系模型。该方法解决了机器人异构系统数据互操作的关键问题,即如何解决异构数据源语义异构问题。该方法主要应用于制造业异构系统中的数据互操作性,完成对机器人领域本体的半自动化构建,是对国内现有本体理论和应用研究的完善,填补了本体理论在工业机器人领域的应用研究盲点,该方法与传统人工方法相比,本体构建过程更加方便快捷,并且适用于大量数据源的本体构建。

【技术实现步骤摘要】
一种基于深度学习的机器人数据互操作领域本体构建方法
本专利技术属于制造业信息化领域的本体构建技术,属于机器人数据互操作方面,尤其涉及一种基于深度学习的机器人数据互操作领域本体构建方法。
技术介绍
随着制造业信息化时代的到来,信息共享成为信息化发展的一项重要技术。然而大部分的制造业设备只是为特定的工作环境而开发的,一些更多、更加复杂的任务需要多个设备的协作才能完成。工业现场中各种设备协同工作的场景应用很多,但是我国在此方面的技术基础并不雄厚,随着技术的不断发展,人们对数据共享提出了更高的要求,希望能够消除异构数据之间的冲突和异常。这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据,使各数据间的互操作变得复杂、困难,使它们成为信息孤岛。为了更好地利用工业网络上浩如烟海的信息,以及不造成企业应用系统的重复建设和数据资源的浪费,人们迫切需要重用和共享这些地理上分布、管理上自治、模式上异构的异构数据。异构数据互操作其目的是在数据源逻辑层上建立统一的访问界面,实现异构数据的分布式共享,使用户不必考虑数据模型的异构性、数据抽取、数据合成等问题,用户只需指定他们想要的数据,而不必描述怎样得到数据。这样就减轻了用户寻找相关数据源、和每个数据源交互然后返回结果的负担。从而为企业综合应用系统提供统一的、安全的、快捷的互访、信息查询、数据挖掘和决策支持服务。为了满足这个需求条件,最终的数据必须保证一定的集成性、完整性、一致性和访问安全性。目前的数据互操作中所解决的问题大部分都是结构异构的问题,采用GAV(Global-as-view)或者LAV(Local-as-view)的模式进行数据互操作,能够将不同结构的数据以统一模式进行互操作,以方便信息的查询处理。但是,其仅仅解决了异构数据中的结构异构问题,并没有解决语义异构问题。数据中的语义异构,需要一种能够明确表达数据语义的方式来进行语义描述。如何达成语义的明确表达,达成理解的共识,正是许多科研机构和科研人员极力想解决的问题。近十年来,本体(Ontology)和其相关的应用领域获得广泛的关注。本体能够明确表示一定领域的概念和概念之间的关系,利用这一特点,基于本体的数据互操作能够很好的解决这一问题。基于本体的异构数据互操作,首先就是要对本体进行构建。本体构建质量的高低直接影响了进一步的应用和研究效果。目前本体大都由领域专家手工编辑而成,存在工程复杂、构建速度慢等缺点。并且基于本体的异构数据互操作目前在工业机器人领域的应用很少,本方法解决了工业机器人领域数据互操作中的语义异构问题,即利用本体理论和深度学习技术对机器人领域本体进行构建,对提升我国工业机器人数据互操作水平具有促进作用。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种构建过程更加方便快捷,并且适用于大量数据源的本体构建的方法。本专利技术的技术方案如下:一种基于深度学习的机器人数据互操作领域本体构建方法,其包括以下步骤:a.机器人领域的数据源的获取和预处理步骤;b.基于深度学习的机器人领域术语提取和概念抽取步骤;采用TF-IDF方法,选用词频、文档频率、逆文档频率、词频方差、领域一致度这5种特征作为特征向量并将其作为深度学习的网络输入,进而抽取机器人领域概念;c.采用优化k-means聚类算法构建机器人数据与概念之间的关系模型,形成机器人领域本体。进一步的,所述步骤a机器人领域的数据源的获取步骤,具体包括:根据包括领域相关知识、机器人领域相关文本、工业机器人相关国际标准、机器人领域相关知识报告及机器人xml数据在内的方式获取源数据,构建机器人领域词典。3、根据权利要求2所述的基于深度学习的机器人数据互操作领域本体构建方法,其特征在于,所述步骤a预处理步骤具体包括:首先对机器人领域词典进行分词,将文本数据切分成单个词语,然后对分词之后的文本进行降噪处理,停用词过滤。进一步的,所述步骤b采用TF-IDF方法,选用TF、DF、IDF、TV、DC这5种特征作为特征向量并将其作为深度学习的网络输入,进而抽取机器人领域概念,具体包括:计算TF、DF、IDF、TV、DC这5种特征向量的值并将其作为深度学习的训练输入,根据深度学习算法,首先训练一部分样本数据得到分类函数,然后将剩下的数据作为测试数据,根据前面训练好的函数来判断候选概念是否属于机器人领域概念,不断调整网络的权值及阈值,训练出神经网络模型;最后利用训练好的网络抽取机器人领域概念,通过人工审核的方式排除抽取出的错误的机器人领域概念,得到机器人领域概念集。进一步的,所述深度学习的网络采用深度信念网络(deepbeliefnetwork,DBN)构建,通过构建具有多个隐层的模型来组合低层特征形成更加抽象的高层特征来挖掘数据特征实现概念分类,假设S是一个系统,它包含有n层(S1,S2,…,Sn),若输入用I表示,输出用O表示,则可表示为:I≥S2≥S3≥…≥Sn≥O,不断调整系统中的参数,使得系统的输出仍然是输入I,那么我们就可以自动得到输入I的层次特征,即S1,S2,…,Sn。DBN是由一层层的RBM(restrictedboltzmannmachine,受限玻尔兹曼机)不断堆叠而成的。RBM网络共有2层,其中第一层称为可视层,一般来说是输入层,另一层是隐含层,也就是特征提取层。该网络可视层和隐层中神经元彼此互联,隐层单元被训练去捕捉可视层单元所表现出来的数据的高阶相关性,在训练DBN时,采用贪婪法逐层训练每一层的RBM。即前一层的RBM训练完成后,将其结果作为下一层RBM的输入来训练该层RBM,以此类推训练完若干RBM,从而构建完整的DBN网络。进一步的,所述步骤c中采用k-means聚类算法构建机器人领域概念之间的分类关系模型,形成机器人领域OWL本体,具体包括:1)在空间Rd上的数据集X={x1,x2,…,xn}中的每一个数据点xi,其中x1∈X,计算其在给定邻域半径δ内的最近邻集合Gk(xi),即d(xi,xj)≤δ且xj∈Gk(xi),其中k为xi在邻域范围内最近邻数据点个数;2)计算数据点xi的密度函数值:式中:xj∈Gk(xi),当xi在邻域范围内的最近邻点xij的密度值小于平均密度值时,即满足下列条件则将数据点xij视为稀疏数据并剔除掉,从而得到密集点集合X′;3)从密集点集合X′中,选取密度值最大的点Densitymax(x),为第一个初始聚类中心C1;然后取距离C1最远的数据点作为第二个聚类中心C2;对于第s个中心点的选取则是满足如下条件的数据点xs且xs∈X′,取满足xs与以选中的聚类中心Cs的距离值最小的数据点作为中心点,即max(dmin(xs,C1),dmin(xs,C2),…,dmin(xs,Cs-1))其中3≤s≤k,直到最终得到所需k个初始聚类中心点,并代表k个类簇ωl,l∈(1,…,k);4)计算数据集X中数据点xi至各个聚类中心点的欧氏距离式中:i=1,2,…n且j=1,2,…k;如果d(xi,Cj)为最小距离值,则将数据点xi归入中心点Cj所代表的数据簇ωj中,重复该过程直到最终聚类完成,从而得到机器人领域本体概念关系模型以及机器人领域本体;本专利技术的优点及有益效果如下:本专利技术针对传统本体构建过程中存在的不足,提出了一种本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的机器人数据互操作领域本体构建方法,其特征在于,包括以下步骤:a.机器人领域的数据源的获取和预处理步骤;b.基于深度学习的机器人领域术语提取和概念抽取步骤;采用TF‑IDF方法,选用词频、文档频率、逆文档频率、词频方差、领域一致度这5种特征作为特征向量并将其作为深度学习的网络输入,进而抽取机器人领域概念;c.采用改进的k‑means聚类算法构建机器人数据概念之间的关系模型,形成机器人领域本体,由于k‑means聚类算法存在初始聚类中心的随机选择可能使聚类效果受到离群数据的影响,造成聚类结果的局部最优而非全局最优,所以对此作出改进,计算Rd空间上数据集X中的每一个数据点x在给定邻域半径δ范围内的最近邻居点集合G(x),计算数据点x的密度函数Density(x)得到其密度值,并且按照升序放入集合X′中,剔除密度值小于平均密度值的数据点,从集合X′中选出密度值最大的数据点为聚类中心点,以选定的初始聚类中心点开始聚类,这样聚类结果相对稳定并可以保证全局最优。

【技术特征摘要】
1.一种基于深度学习的机器人数据互操作领域本体构建方法,其特征在于,包括以下步骤:a.机器人领域的数据源的获取和预处理步骤;b.基于深度学习的机器人领域术语提取和概念抽取步骤;采用TF-IDF方法,选用词频、文档频率、逆文档频率、词频方差、领域一致度这5种特征作为特征向量并将其作为深度学习的网络输入,进而抽取机器人领域概念;c.采用改进的k-means聚类算法构建机器人数据概念之间的关系模型,形成机器人领域本体,由于k-means聚类算法存在初始聚类中心的随机选择可能使聚类效果受到离群数据的影响,造成聚类结果的局部最优而非全局最优,所以对此作出改进,计算Rd空间上数据集X中的每一个数据点x在给定邻域半径δ范围内的最近邻居点集合G(x),计算数据点x的密度函数Density(x)得到其密度值,并且按照升序放入集合X′中,剔除密度值小于平均密度值的数据点,从集合X′中选出密度值最大的数据点为聚类中心点,以选定的初始聚类中心点开始聚类,这样聚类结果相对稳定并可以保证全局最优。2.根据权利要求1所述的基于深度学习的机器人数据互操作领域本体构建方法,其特征在于,所述步骤a机器人领域的数据源的获取步骤,具体包括:根据包括领域相关知识、机器人领域相关文本、工业机器人相关国际标准、机器人领域相关知识报告及机器人xml数据在内的方式获取源数据,构建机器人领域词典。3.根据权利要求2所述的基于深度学习的机器人数据互操作领域本体构建方法,其特征在于,所述步骤a预处理步骤具体包括:首先对机器人领域词典进行分词,将文本数据切分成单个词语,然后对分词之后的文本进行降噪处理,停用词过滤。4.根据权利要求2所述的基于深度学习的机器人数据互操作领域本体构建方法,其特征在于,所述步骤b采用TF-IDF方法,选用TF、DF、IDF、TV、DC这5种特征作为特征向量并将其作为深度学习的网络输入,进而抽取机器人领域概念,具体包括:计算TF、DF、IDF、TV、DC这5种特征向量的值并将其作为深度学习的训练输入,根据深度学习算法,首先训练一部分样本数据得到分类函数,然后将剩下的数据作为测试数据,根据前面训练好的函数来判断候选概念是否属于机器人领域概念,不断调整网络的权值及阈值,训练出神经网络模型;最后利用训练好的网络抽取机器人领域概念,通过人工审核的方式排除抽取出的错误的机器人领域概念,得到机器人领域概念集。5.根据权利要求4所述的基于深度学习的机器人数据互操作领域本体构建方法,其特征在于,所述深度学习的模型采用...

【专利技术属性】
技术研发人员:罗志勇于士杰赵杰范志鹏马国喜郑焕平罗蓉蔡婷
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1