System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及政务处理,具体为知识图谱与规则约束相结合的数据智能分析方法及系统。
技术介绍
1、随着政务信息化的不断推进,政务数据呈现出多源异构、数据量大、语义复杂等特点,传统的结构化数据分析方法难以有效处理和利用。知识图谱技术作为一种结构化知识表示和推理方法,可以将复杂的政务数据组织为简洁的实体-关系网络,并通过图推理发现隐含的关联模式,已经在智慧城市、辅助决策等领域得到应用。
2、在知识图谱构建方面,主流方法包括基于规则、基于概率统计和基于深度学习的方法。基于规则的方法利用预定义的模板和规则从文本中抽取实体及其关系,如正则表达式匹配、句法依存分析等;基于概率统计的方法通过联合概率模型刻画实体及其关系的共现模式,如条件随机场、主题模型等;基于深度学习的方法利用神经网络自动学习文本特征,端到端地完成实体识别和关系抽取任务,如卷积神经网络cnn、长短期记忆网络lstm等。近年来,预训练语言模型如bert在多个nlp任务上取得了显著效果,为知识抽取任务带来新的突破。
3、现有的政务处理技术针对多模态政务大数据分析面临的许多技术挑战,在实体抽取、关系抽取、知识嵌入、知识融合、知识推理等方面有较大技术欠缺。
4、鉴于此,本专利技术提出一种知识图谱与规则约束相结合的数据智能分析方法及系统。
技术实现思路
1、为实现上述目的,本专利技术提供如下技术方案:知识图谱与规则约束相结合的数据智能分析方法,包括:
2、采集多模态数据,包括文本、图像和音频,
3、以文本作为数据源,采用bert模型识别实体,并构建关系抽取技术bilstm-crf模型提取文本中的实体关系;
4、基于文本中识别和提取的实体和实体间关系,使用transe模型进行知识图谱嵌入,将实体和实体关系映射到向量空间,构建知识图谱;
5、定义规则约束,将规则约束转化为一阶逻辑表达式,构建马尔可夫逻辑网络,基于马尔可夫逻辑网络在向量空间将知识图谱和规则约束进行融合;
6、基于融合后的知识图谱,使用图挖掘和推理技术,挖掘实体之间潜在的关系,对挖掘出的实体关系进行分析。
7、优选的,所述采集多模态数据,包括文本、图像和音频,对多模态数据进行同一结构化处理,获取多模态数据中的文本包括:获取多模态数据,对获取的多模态数据进行清洗,去除html标签、特殊字符以及重复内容,提取多模态数据中的文本内容;将清洗后的数据转换为统一的格式,得到待识别的文本。
8、优选的,所述以文本作为数据源,采用bert模型识别实体,并构建关系抽取技术bilstm-crf模型提取文本中的实体关系包括:使用实体识别技术,在各类文本数据中识别出实体,采用bert模型的深度学习法进行ner命名实体识别;
9、在文本中识别出实体后,生成实体突出显示的文本序列,其中表示第n个实体,表示第c个文本词语;
10、通过关系抽取技术bilstm-crf模型在文本中抽取出实体之间的关系,即采用双向长短期记忆网络bilstm模型结合条件随机场crf模型进行关系抽取;
11、使用bilstm层对文本序列进行编码,得到实体隐藏状态序列,表示第c个文本词语的隐藏状态向量,表示第n个实体的隐藏状态向量,所述bilstm模型包括正向lstm模型和反向lstm模型,其中:
12、;
13、;
14、;
15、其中,k为lstm模型隐藏状态维度;bilstm层的输出作为全连接层的输入,全连接层用于将bilstm的输出转换为特定数量的类别,类别对应于实体之间的关系类型:,其中和b是全连接层的权重矩阵和偏置向量,是的输出向量,表示每个实体关系类型的分数,表示第n个实体的向量表示,r表示实体关系类型总数,表示上一时刻的隐藏状态,表示下一时刻的隐藏状态。
16、优选的,所述crf模型用于捕捉输出实体关系标签之间的依赖关系,确保输出的标签序列符合合法模式,crf层计算整个标签序列的评分,并通过动态规划算法找到最优实体关系标签序列;
17、实体关系标签序列评分计算公式为:
18、;
19、其中,y是实体关系标签序列,是第个实体对应标签的分数,a是状态转移矩阵,表示第个实体与第个实体;n为实体的总数量;i≤n;
20、构建实体关系标签概率函数:
21、;
22、根据实体关系标签序列评分构建实体关系标签的概率函数,确定实体与实体之间的具体关系标签,其中是预测的实体关系标签,是所有的关系标签序列,表示给定输入序列x,输出标签序列y'的分数。
23、优选的,基于文本中识别和提取的实体和实体间关系,使用transe模型进行知识图谱嵌入,将实体和实体关系映射到向量空间,构建知识图谱,包括:
24、将在文本中识别出的实体和抽取出的实体关系构建成三元组,其中为头实体,为实体关系,为尾实体;通过transe模型,将实体和实体关系映射到同一向量空间,实体用低维实值向量表示,实体关系用平移向量表示;
25、transe模型训练过程如下:对于每个三元组,transe模型学习实体和实体关系的嵌入向量,使得;
26、定义transe模型的能量函数为:,其中和表示向量范数,l1范数和l2范数用于计算实体嵌入向量之间的距离,l1范数表示曼哈顿距离,l2范数表示欧式距离;
27、使用负采样策略生成负样本三元组,其中和随机替换为任意实体;定义transe模型的损失函数为:
28、;
29、其中,为正样本三元组集合,为负样本三元组集合,为超参数,控制正负样本间的间隔;
30、使用随机梯度下降sgd算法最小化transe模型损失函数,更新实体和实体关系的嵌入向量,当损失函数收敛时停止训练;
31、使用训练好的transe模型,将文本中识别出的实体和实体关系映射到向量空间,构建知识图谱,其中e为实体集合,r表示实体关系类型总数,实体节点的特征向量为对应的嵌入向量,关系边的特征向量为对应的嵌入向量;利用transe模型计算实体节点和关系边嵌入向量的语义相似度,构建知识图谱的拓扑结构。
32、优选的,所述定义规则约束,将规则约束转化为一阶逻辑表达式,构建马尔可夫逻辑网络,基于马尔可夫逻辑网络在向量空间将知识图谱和规则约束进行融合,包括:
33、定义约束规则,其中表示第个规则约束,每个规则约束由多个一阶逻辑公式组成,所述一阶逻辑公式用于表示实体类型和实体间关系的约束条件;
34、将每个约束规则转化为一阶逻辑公式,使用谓词、常量、变量和逻辑连接词构建逻辑公式,
35、;
36、其中,表示常量,表示变量,表示谓词和逻辑连接词。
37、优选的,所述定义规则约束,将规则约束转化为一阶逻辑表达式,构建马尔可本文档来自技高网...
【技术保护点】
1.知识图谱与规则约束相结合的数据智能分析方法,其特征在于,包括:
2.根据权利要求1所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,所述采集多模态数据,包括文本、图像和音频,对多模态数据进行同一结构化处理,获取多模态数据中的文本包括:获取多模态数据,对获取的多模态数据进行清洗,去除HTML标签、特殊字符以及重复内容,提取多模态数据中的文本内容;将清洗后的数据转换为统一的格式,得到待识别的文本。
3.根据权利要求2所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,所述以文本作为数据源,采用BERT模型识别实体,并构建关系抽取技术BiLSTM-CRF模型提取文本中的实体关系包括:使用实体识别技术,在各类文本数据中识别出实体,采用BERT模型的深度学习法进行NER命名实体识别;
4.根据权利要求3所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,所述CRF模型用于捕捉输出实体关系标签之间的依赖关系,确保输出的标签序列符合合法模式,CRF层计算整个标签序列的评分,并通过动态规划算法找到最优实体关系标签序列;
>5.根据权利要求4所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,基于文本中识别和提取的实体和实体间关系,使用TransE模型进行知识图谱嵌入,将实体和实体关系映射到向量空间,构建知识图谱,包括:
6.根据权利要求5所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,所述定义规则约束,将规则约束转化为一阶逻辑表达式,构建马尔可夫逻辑网络,基于马尔可夫逻辑网络在向量空间将知识图谱和规则约束进行融合,包括:
7.根据权利要求6所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,所述定义规则约束,将规则约束转化为一阶逻辑表达式,构建马尔可夫逻辑网络,基于马尔可夫逻辑网络在向量空间将知识图谱和规则约束进行融合,还包括:
8.根据权利要求7所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,所述基于融合后的知识图谱,使用图挖掘和推理技术,挖掘实体之间潜在的关系,对挖掘出的实体关系进行分析,包括:
9.知识图谱与规则约束相结合的数据智能分析系统,其用于实现权利要求1至8任一项所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,包括:数据采集和处理模块、实体识别模块、知识图谱模块、规则约束模块、融合模块以及挖掘和分析模块;
10.一种电子设备,其特征在于,包括:处理器和存储器,其中,所述存储器中存储有可供处理器调用的计算机程序;
11.一种计算机可读存储介质,其特征在于,包括:储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至8任一项所述的知识图谱与规则约束相结合的数据智能分析方法。
...【技术特征摘要】
1.知识图谱与规则约束相结合的数据智能分析方法,其特征在于,包括:
2.根据权利要求1所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,所述采集多模态数据,包括文本、图像和音频,对多模态数据进行同一结构化处理,获取多模态数据中的文本包括:获取多模态数据,对获取的多模态数据进行清洗,去除html标签、特殊字符以及重复内容,提取多模态数据中的文本内容;将清洗后的数据转换为统一的格式,得到待识别的文本。
3.根据权利要求2所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,所述以文本作为数据源,采用bert模型识别实体,并构建关系抽取技术bilstm-crf模型提取文本中的实体关系包括:使用实体识别技术,在各类文本数据中识别出实体,采用bert模型的深度学习法进行ner命名实体识别;
4.根据权利要求3所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,所述crf模型用于捕捉输出实体关系标签之间的依赖关系,确保输出的标签序列符合合法模式,crf层计算整个标签序列的评分,并通过动态规划算法找到最优实体关系标签序列;
5.根据权利要求4所述的知识图谱与规则约束相结合的数据智能分析方法,其特征在于,基于文本中识别和提取的实体和实体间关系,使用transe模型进行知识图谱嵌入,将实体和实体关系映射到向量空间,构建知识图谱,包括:
【专利技术属性】
技术研发人员:杜凯宁,王津,曹晓华,顾晓丽,赵云林,张春营,李锋,王庆功,
申请(专利权)人:山东亚微软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。