System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于苗医药典籍的知识图谱构建方法技术_技高网
当前位置: 首页 > 专利查询>吉首大学专利>正文

一种用于苗医药典籍的知识图谱构建方法技术

技术编号:43090947 阅读:11 留言:0更新日期:2024-10-26 09:38
本发明专利技术公开了一种用于苗医药典籍的知识图谱构建方法,包括以下步骤:将苗医药典籍数字化处理,得到第一文本,并对第一文本进行内容校正和数据清理;构建知识抽取函数提取第一文本的知识或结构化数据,并采用预定义的正则表达式对象匹配并识别不同类型的值;基于Neo4j数据存储引擎构建知识图谱,并将数据存储至图数据库;建立与图数据库的联系,获取图数据库中的苗医药典籍数据,进行知识图谱的知识结构和语义关联的可视化。本发明专利技术解决了如何构建面向苗医药典籍的知识图谱,并对苗医药知识图谱各级节点进行动态展示和自由搜索的技术问题。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种用于苗医药典籍的知识图谱构建方法


技术介绍

1、苗医药作为中国传统医学的重要组成部分之一,拥有悠久的历史和深厚的文化底蕴。然而,由于其特殊性和地域限制,苗医药的相关知识相对较少被传播和了解。近年来,苗医药典籍数字化处理和苗医药知识智能应用相关的苗医药信息化研究逐渐为人们所重视,但目前这方面研究工作及成果方面的报道鲜见。苗医药信息化需要运用现代信息技术和方法,如互联网、云计算、大数据和人工智能。其中,人工智能技术将成为推动苗医药信息化的关键力量。此外,苗医药信息化还需重视数据质量和安全。结合苗医药信息化研究的需要,利用人工智能技术,在保证数据质量和安全的前提下,将苗医药典籍中的知识进行结构化表示和关联,据此构建知识图谱,以帮助用户更加全面、系统地理解苗医药领域的知识体系,对于更好地保存、传承和推广苗医药这一民族医药瑰宝具有重要意义。

2、知识图谱的构建主要分为两个关键步骤:知识获取和知识表示。知识获取涉及从多种信息资源中提取有用知识,包括命名实体识别、实体链接、实体间关系抽取、属性提取以及本体学习等技术。知识表示则是将获取到的知识按照特定规范和格式组织成知识图谱,包括实体分类、属性定义、关系类型、本体构建等内容。在知识获取领域,已经发展出多种成熟方法和技术,包括基于规则、基于统计和基于深度学习的方法。基于规则的方法通过人工设计规则和模板,从文本中匹配和提取符合条件的实体和关系。这种方法准确性高,但需要大量人工编写规则,且泛化能力和适应性有限,难以处理复杂、多样的文本。基于统计的方法利用机器学习算法从标记好的训练数据中学习特征和模型,再用学得的模型对新文本进行预测和抽取。这种方法可以自动学习特征和模型,具有一定泛化能力,但需要大量标注数据,对噪声敏感,可能出现过拟合或欠拟合问题。基于深度学习的方法则利用深度神经网络结构和算法,自动从原始文本中提取高级语义特征,并用这些特征进行实体和关系的识别和抽取。这种方法能充分利用文本的语义信息,无需人工设计特征,但需要大量计算资源,模型可解释性较差,难以找出错误原因。知识图谱作为一种语义网络模型,可用于存储和表达各个领域的知识。如何将苗医药典籍与知识图谱这一语义网络进行结合,构建面向苗医药典籍的苗医药知识图谱,并实现对苗医药知识图谱各级节点进行动态展示和自由搜索功能,是本专利技术亟待解决的技术问题。为解决上述技术问题,本专利技术提出一种用于苗医药典籍的知识图谱构建方法。


技术实现思路

1、本专利技术的主要目的是提出一种用于苗医药典籍的知识图谱构建方法,旨在解决如何构建面向苗医药典籍的知识图谱,并对苗医药知识图谱各级节点进行动态展示和自由搜索的技术问题。

2、为实现上述目的,本专利技术提供一种用于苗医药典籍的知识图谱构建方法,其中,所述用于苗医药典籍的知识图谱构建方法包括以下步骤:

3、s1、将苗医药典籍数字化处理,得到第一文本,并对第一文本进行内容校正和数据清理;

4、s2、构建知识抽取函数提取第一文本的知识或结构化数据,并采用预定义的正则表达式对象匹配并识别不同类型的值;

5、s3、基于neo4j数据存储引擎构建知识图谱,并将数据存储至图数据库;

6、s4、建立与图数据库的联系,获取图数据库中的苗医药典籍数据,进行知识图谱的知识结构和语义关联的可视化。

7、优选方案之一,所述步骤s1中将苗医药典籍数字化处理,得到第一文本,具体为:

8、s111、将苗医药典籍图书转化为第一pdf文档;

9、s112、通过深度卷积神经网络goodlenet对第一pdf文档进行图像分类;

10、s113、采用ocrmypdf对第一pdf文档进行光学字符识别,将图像中的文字转化为可搜索和可编辑的文本,并嵌入至第一pdf文档,得到第二pdf文档;

11、s114、将第二pdf文档进行格式转换,得到第一文本。

12、优选方案之一,所述步骤s1对第一文本进行内容校正和数据清理,具体为:

13、s121、基于拼写检查器进行自动拼写错误的检查和纠正;

14、s122、通过手动校对进行二次内容校正,并清除与苗医药典籍的无关数据;

15、s123、清除第一文本中的页码,并将第一文本中标号自动转换为中文字符;所述标号包括数字、字母和括号。

16、优选方案之一,所述将第一文本中标号自动转换为中文字符,具体为:

17、获取第一文本中的文本对象,并判断标号是否存在,具体为:根据异常处理机制捕获可能发生的属性异常,并判断文本对象是否存在numpr属性,所述numpr属性表示段落是否有编号;

18、获取标号的类型和级别,包括:获取编号的类型和级别,并根据编号的类型和级别从第一文本中获取对应的编号文本;

19、将获取的标号文本与原始文本进行拼接,从而得到最终的文本。

20、优选方案之一,所述步骤s2构建知识抽取函数提取第一文本的知识或结构化数据,具体为:

21、s21、构建知识抽取函数,并设置生成器作为参数,通过所述生成器读取第一文本的知识或结构数据;

22、s22、创建存储器对象,遍历生成器,判断是否为标题类;

23、若是,则清除上一字符对象的地址,创建标题对象,写入标题地址;

24、若否,则获取上一字符对象的地址,判断是否获取成功,若获取成功,则检查上一字符对象是否为空,若不为空则在上一字符对象中追加内容;若获取不成功,则新建节点,链接至上一级标题,写入自身地址;

25、s23、判断生成器是否为空,若是,则重复步骤s22;若否,则返回存储器对象。

26、优选方案之一,所述图数据库设有book类节点;

27、所述book类节点设有identity属性和第一name属性;所述identity属性为book类节点的位置标识符,所述第一name属性为book类节点的名称。

28、优选方案之一,所述图数据库设有title类节点;

29、所述title类节点设有第二name属性、information属性、alias属性、before_book属性、next_title属性和next_node属性;所述第二name属性为title类节点的标题名称,所述information属性为title类节点的相关信息,所述alias属性为title类节点的别名;所述before_book属性为title类节点所属的书,所述next_title属性为title类节点的下级标题,所述next_node属性为当前标题的主题和内容。

30、优选方案之一,所述图数据库设有node类节点;

31、所述node类节点设有方剂属性、用法属性、方解属性、主治属性、治则属性、属经属性、注意属性和belongs_to属性;所述belongs_to属性为当前node类节点属于哪些标题。本文档来自技高网...

【技术保护点】

1.一种用于苗医药典籍的知识图谱构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述步骤S1中将苗医药典籍数字化处理,得到第一文本,具体为:

3.根据权利要求1-2任一项所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述步骤S1对第一文本进行内容校正和数据清理,具体为:

4.根据权利要求3所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述将第一文本中标号自动转换为中文字符,具体为:

5.根据权利要求1-2任一项所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述步骤S2构建知识抽取函数提取第一文本的知识或结构化数据,具体为:

6.根据权利要求1-2任一项所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述图数据库设有Book类节点;

7.根据权利要求1-2任一项所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述图数据库设有Title类节点;

8.根据权利要求1-2任一项所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述图数据库设有Node类节点;

9.根据权利要求1-2任一项所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述步骤S4建立与图数据库的联系,获取图数据库中的苗医药典籍数据,具体为:

10.根据权利要求9所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述步骤S4知识图谱的知识结构和语义关联的可视化,具体为:

...

【技术特征摘要】

1.一种用于苗医药典籍的知识图谱构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述步骤s1中将苗医药典籍数字化处理,得到第一文本,具体为:

3.根据权利要求1-2任一项所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述步骤s1对第一文本进行内容校正和数据清理,具体为:

4.根据权利要求3所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述将第一文本中标号自动转换为中文字符,具体为:

5.根据权利要求1-2任一项所述的一种用于苗医药典籍的知识图谱构建方法,其特征在于,所述步骤s2构建知识抽取函数提取第一文本的知识或结构化数据,具体为:

6.根据...

【专利技术属性】
技术研发人员:莫礼平马轩尹彪罗相文李陕闵威
申请(专利权)人:吉首大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1