利用自然语言处理技术定义数据元素的方法以及装置制造方法及图纸

技术编号：15792062 阅读：400 留言：0更新日期：2017-07-09 23:11

本发明专利技术公开了一种利用自然语言处理技术定义数据元素的方法以及装置。其中方法包括：基于信息系统中数据的基本信息，定义目标数据元素的表示信息，并获取多个数据表的字段信息；基于预先配置的语法规则，根据表示信息从多个数据表的字段信息中提取对象词和特性词；基于对象词、特性词和表示信息，对多个数据表的字段进行相似度计算；根据相似度计算结果，对字段信息进行聚类分析以得到多个聚类类别；根据每一个聚类类别中的特征信息定义类别名称，并将类别名称作为目标数据元素的名称，并将聚类后的数据表字段的字符类型定义为目标数据元素的数据类型。该方法实现了不依赖于事先定义的标准数据元素，减少了人工配置方面的工作量，提升使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
利用自然语言处理技术定义数据元素的方法以及装置
本专利技术涉及数据处理
，特别涉及一种利用自然语言处理技术定义数据元素的方法以及装置。
技术介绍
随着信息化水平的不断提升，政府、企业等单位都建立了众多的信息系统来支撑各种业务的开展，但是由于系统与系统之间业务口径的不一致、表达方式存在差异等影响着各个业务系统内部数据之间的交互。为了能够更好地保证各个业务系统内部数据之间的交互，在相关技术中，提出了通过定义统一的标准数据元素信息来实现数据间的正常交互，具体可包括以下几种方式：其一，通过手工定义标准数据元素以及数据元素的各个要素；其二，基于标准数据元素，计算表字段与数据元素的相似度，形成字段与数据元素之间的映射关系。虽然通过上述几种方式可以解决数据之间不能正常交互的问题，但过于依赖于事先定义好的标准数据元素，且对数据元素的完整性要求比较高，此外存在较大的人工配置工作量，比较耗时耗力。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的第一个目的在于提出一种利用自然语言处理技术定义数据元素的方法，该方法实现了不依赖于事先定义的标准数据元素，且减少了人工配置方面的工作量，提升了使用体验。本专利技术的第二个目的在于提出一种利用自然语言处理技术定义数据元素的装置。为达上述目的，根据本专利技术第一方面实施例提出了利用自然语言处理技术定义数据元素的方法，该方法包括以下步骤：包括以下步骤：基于信息系统中数据的基本信息，定义目标数据元素的表示信息，并获取所述信息系统中多个数据表的字段信息；基于预先配置的语法规则，根据所述表示信息从所述...
利用自然语言处理技术定义数据元素的方法以及装置

【技术保护点】
一种利用自然语言处理技术定义数据元素的方法，其特征在于，包括以下步骤：基于信息系统中数据的基本信息，定义目标数据元素的表示信息，并获取所述信息系统中多个数据表的字段信息；基于预先配置的语法规则，根据所述表示信息从所述多个数据表的字段信息中提取对象词和特性词；基于所述对象词、特性词和表示信息，对所述多个数据表的字段之间进行相似度计算；根据所述相似度计算的结果，对所述多个数据表的字段信息进行聚类分析以得到多个聚类类别；根据每一个聚类类别中的特征信息定义所述类别的名称，并将所述类别的名称作为所述目标数据元素的名称，并将聚类后的数据表字段的字符类型定义为所述目标数据元素的数据类型。

【技术特征摘要】
1.一种利用自然语言处理技术定义数据元素的方法，其特征在于，包括以下步骤：基于信息系统中数据的基本信息，定义目标数据元素的表示信息，并获取所述信息系统中多个数据表的字段信息；基于预先配置的语法规则，根据所述表示信息从所述多个数据表的字段信息中提取对象词和特性词；基于所述对象词、特性词和表示信息，对所述多个数据表的字段之间进行相似度计算；根据所述相似度计算的结果，对所述多个数据表的字段信息进行聚类分析以得到多个聚类类别；根据每一个聚类类别中的特征信息定义所述类别的名称，并将所述类别的名称作为所述目标数据元素的名称，并将聚类后的数据表字段的字符类型定义为所述目标数据元素的数据类型。2.如权利要求1所述的方法，其特征在于，所述基于预先配置的语法规则，根据所述表示信息从所述多个数据表的字段信息中提取对象词和特性词，包括：对所述表示信息进行语义扩展以生成表示的特征词库；对所述多个数据表的字段信息进行表示信息的归类，形成所述多个数据表的字段与所述目标数据元素中表示的映射关系；根据所述映射关系以及所述表示的特征词库，从所述多个数据表的字段信息中剔除表示特征词；对剔除表示特征词之后的多个数据表的字段信息进行语义依存分析，以提取所述剔除表示特征词之后的多个数据表的字段信息中各个词的语法关系；根据所述语法规则和所述语法关系生成所述多个数据表的字段信息的对象词和特性词。3.如权利要求2所述的方法，其特征在于，在根据所述语法规则和所述语法关系生成所述多个数据表的字段信息的对象词和特性词之后，所述方法还包括：对生成的结果信息建立反向自学习机制；基于所述反向自学习机制，将所述结果信息作为训练信息对所述对象词和特性词进行二次修正；其中，基于所述对象词、特性词和表示信息，对所述多个数据表的字段之间进行相似度计算，包括：基于二次修正后的所述对象词、特性词和所述表示信息，对所述多个数据表的字段之间进行相似度计算。4.如权利要求1所述的方法，其特征在于，在将所述类别的名称作为所述目标数据元素的名称之后，所述方法还包括：基于分词器对所述目标数据元素的名称进行拼音的转化，并截取所述拼音的首字母组合成所述目标数据元素的标识符。5.如权利要求1至4中任一项所述的方法，其特征在于，所述数据的基本信息至少包括数据的主题、内容、格式标准和表达方式。6.一种利用自然语言处理...

【专利技术属性】
技术研发人员：徐雄伟，
申请(专利权)人：杭州数梦工场科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人