System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识图谱的公文冲突关系识别方法及装置制造方法及图纸_技高网

基于知识图谱的公文冲突关系识别方法及装置制造方法及图纸

技术编号:42202838 阅读:8 留言:0更新日期:2024-07-30 18:48
本发明专利技术公开了一种基于知识图谱的公文冲突关系识别方法及装置,所述方法包括:收集公文文件,构建公文数据库;基于所述公文数据库构建公文知识图谱,得到公文知识图谱库;获取新公文文本,确定所述新公文文本对应的新公文图谱;对所述新公文图谱与所述公文知识图谱库中各公文知识图谱进行融合计算,确定关联关系。利用本发明专利技术方案,可以以实现相似公文的检测及冲突的识别。

【技术实现步骤摘要】

本专利技术涉及信息处理,具体涉及一种基于知识图谱的公文冲突关系识别方法及装置


技术介绍

1、国家每年颁布大量的公文来规范和促进各领域的发展。比如在大数据领域,国家出台了许多公文,而对于这些公文的制定和分析,尤其对公文之间的关联关系的研究,有利于帮助公文制定者能更好地制定新一轮的公文文件,有利于公文研究者科学的分析公文发展脉络变化,有利于公文应用者更好的学习公文。

2、过去针对公文的研究更多地关注在单篇公文文本上,比如分析公文的情感倾向、应用领域等,忽略了公文之间的关系。但是公文在制定上存在着继承、补充等特点,甚至还会有前后冲突的问题,比如当前公文与历史公文往往会在某一个群体或社会实体上产生冲突。这种冲突可能是主动产生的公文变化,也可能是被动产生的潜在矛盾,为了避免后者情况的发生,公文发布前的冲突检测尤为重要。

3、现有的关系抽取研究领域中,主要是针对公文之间的一般关系抽取,对公文脉络分析的研究较少,更是很少有对公文冲突的研究。因此一篇公文的制定,大都是基于人工查阅历史相关公文,并借助于自然语言处理技术实现公文主题分类来缩小查询范围。这种方式存在以下缺点:

4、(1)公文冲突问题关注度较少:在关系抽取研究领域中,主要是针对公文之间的一般关系抽取,例如引用、包含、发布等,对整个公文脉络分析的研究较少,更是忽略了对公文之间冲突的研究。

5、(2)需要业务专家支持、人工检测冲突,成本高、费力耗时:目前一篇公文的制定,都是基于人工查阅历史相关公文,或借助于自然语言处理技术实现公文主题分类来缩小查询范围,但这种基于人工的公文查询费时费力,而且公文之间冲突的关系识别更是需要公文领域专家的支持。


技术实现思路

1、本专利技术提供一种基于知识图谱的公文冲突关系识别方法及装置,以实现相似公文的检测及冲突的识别。

2、为此,本专利技术提供如下技术方案:

3、一种基于知识图谱的公文冲突关系识别方法,所述方法包括:

4、收集公文文件,构建公文数据库;

5、基于所述公文数据库构建公文知识图谱,得到公文知识图谱库;

6、获取新公文文本,确定所述新公文文本对应的新公文图谱;

7、对所述新公文图谱与所述公文知识图谱库中各公文知识图谱进行融合计算,确定关联关系。

8、可选地,所述收集公文文件,构建公文数据库包括:

9、从互联网上收集公开的公文文件,并将所述公文文件的内容转换为txt文本格式;

10、对所述公文文件进行解析,得到对应不同领域的公文文本;

11、根据所述公文文本生成各领域的公文数据库。

12、可选地,所述基于所述公文数据库构建公文知识图谱包括:

13、对所述公文数据库中的公文数据进行公文实体识别及实体关系抽取,得到实体三元组;

14、根据所述实体三元组构建公文知识图谱。

15、可选地,所述方法还包括:

16、预先构建基于深度学习的联合抽取模型;

17、所述对所述公文数据库中的公文数据进行公文实体识别及实体关系抽取,得到实体三元组包括:

18、利用所述联合抽取模型对所述公文数据库中的公文文本进行公文实体识别及实体关系抽取,得到实体三元组。

19、可选地,所述构建联合抽取模型包括:

20、对所述公文数据库中的公文文本进行公文实体及实体关系的标注,得到训练样本;

21、对所述训练样本进行分词,并获取所述训练样本对应的词向量序列;

22、基于所述训练样本及词向量序列训练得到所述联合抽取模型。

23、可选地,所述确定所述新公文文本对应的新公文图谱包括:利用所述联合抽取模型确定所述新公文文本对应的新公文图谱。

24、可选地,所述对所述新公文图谱与所述公文知识图谱库中各公文知识图谱进行融合计算,确定关联关系包括:

25、计算所述新公文图谱与所述公文知识图谱库中各公文知识图谱基于图向量空间的相似度;

26、如果所述基于图向量空间的相似度大于第一阈值,则计算所述新公文图谱与各公文知识图谱基于关键类别向量空间的相似度;

27、如果所述基于关键类别的相似度大于第二阈值,则确定所述公文知识图谱对应的公文文本为所述新公文文本的相似文本;

28、确定两相似文本的关联关系。

29、可选地,所述计算所述新公文图谱与所述公文知识图谱库中各公文知识图谱基于图向量空间的相似度包括:

30、分别获取所述新公文图谱和所述公文知识图谱的向量;

31、根据获取的两个向量计算所述新公文图谱与所述公文知识图谱基于图向量空间的相似度。

32、可选地,所述计算所述新公文图谱与各公文知识图谱基于关键类别向量空间的相似度包括:

33、根据设定的关键实体类别分别确定所述新公文图谱和所述公文知识图谱中的关键实体;

34、根据所述关键实体计算所述新公文图谱与所述公文知识图谱基于关键类别向量空间的相似度。

35、可选地,所述确定两相似文本的关联关系包括:确定两相似文本是否存在冲突,得到冲突检测结果。

36、可选地,所述方法还包括:展现所述新公文图谱及所述冲突检测结果。

37、一种基于知识图谱的公文冲突关系识别装置,所述装置包括:

38、公文数据库构建模块,用于收集公文文件,构建公文数据库;

39、公文知识图谱库构建模块,用于基于所述公文数据库构建公文知识图谱,得到公文知识图谱库;

40、新公文获取模块,用于获取新公文文本;

41、图谱生成模块,用于确定所述新公文文本对应的新公文图谱;

42、关系识别模块,用于对所述新公文图谱与所述公文知识图谱库中各公文知识图谱进行融合计算,确定关联关系。

43、本专利技术提供的基于知识图谱的公文冲突关系识别方法及装置,借助自然语言处理技术对自然语言形式的公文进行处理,分析并以知识图谱的可视化手段呈现公文之间的关联关系,快速识别出公文冲突关系,为政府部门查看、制定和优化相关公文提供快速的支撑依据。

44、相对于传统的基于知识图谱的冲突检测方法,本专利技术方案不仅考虑了公文实体表层的文本特征,还对实体在公文文本中的语义信息进行建模和向量表示,从而可以更加准确地找到相似公文,识别相似公文之间是否存在冲突。

本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的公文冲突关系识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述收集公文文件,构建公文数据库包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述公文数据库构建公文知识图谱包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述构建联合抽取模型包括:

6.根据权利要求4所述的方法,其特征在于,所述确定所述新公文文本对应的新公文图谱包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述对所述新公文图谱与所述公文知识图谱库中各公文知识图谱进行融合计算,确定关联关系包括:

8.根据权利要求7所述的方法,其特征在于,所述计算所述新公文图谱与所述公文知识图谱库中各公文知识图谱基于图向量空间的相似度包括:

9.根据权利要求7所述的方法,其特征在于,所述计算所述新公文图谱与各公文知识图谱基于关键类别的相似度包括:

10.根据权利要求7所述的方法,其特征在于,所述确定两相似文本的关联关系包括:

11.根据权利要求10所述的方法,其特征在于,所述方法还包括:

12.一种基于知识图谱的公文冲突关系识别装置,其特征在于,所述装置包括:

...

【技术特征摘要】

1.一种基于知识图谱的公文冲突关系识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述收集公文文件,构建公文数据库包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述公文数据库构建公文知识图谱包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述构建联合抽取模型包括:

6.根据权利要求4所述的方法,其特征在于,所述确定所述新公文文本对应的新公文图谱包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述对所述...

【专利技术属性】
技术研发人员:孔德智熊子奇蔡惠民谭敏薛彦凯
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1