System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种针对文化书籍数据进行知识图谱分析的方法技术_技高网

一种针对文化书籍数据进行知识图谱分析的方法技术

技术编号:41554337 阅读:2 留言:0更新日期:2024-06-06 23:40
本发明专利技术公开了一种针对文化书籍数据进行知识图谱分析的方法,涉及数据工程领域。具体实现方案为:利用OCR技术对文化书籍数据进行分析并对OCR的结果进行处理,得到文化书籍数据的标题、段落和章节文本数据;遍历章节文本数据,合并清洗所有段落文本数据的实体、关系和事件;基于章节文本数据、段落文本数据、段落文本数据的实体、关系和事件构建索引并存储;采用可视化展示文化书籍数据的分析结果,利用构建的索引从实体、关系跳转到对应的段落文本数据,实现信息的快速获取和分析。本发明专利技术利用大模型充分提取文化书籍数据中的实体、关系和事件等关键结构化数据,并且结合知识图谱为结构化数据提供丰富、准确的文化知识,可实现高效分析文化数据。

【技术实现步骤摘要】

本专利技术涉及文数据工程技术,尤其涉及一种针对文化书籍数据进行知识图谱分析的方法


技术介绍

1、在文化数字化大背景下,传统文化书籍等纸质数据需要通过数字化的方式将其中的内容进行结构化、解析、转化并存储,最后提炼出高质量的核心内容,帮助阅读者、研究者等人员对文化数据进行快速、准确的分析和研究,同时,知识图谱是一种高度结构化的数据存储系统,其中包含海量的、准确的数据可以帮助高效的查询文化知识,以及随着大模型(llm)的愈加成熟,其高效准确的数据分析能力能够帮助从文本中抽取复杂的数据内容。由于传统文化书籍存在历史久远、书籍结构复杂、内容形式多样、信息爆炸等特点,从这一类数据中提取高价值的内容难度较高,耗时较长且需要较多的人工进行操作,无法快速的实现文化数据的分析,导致下游利用这些文化知识的效率较低。而高度结构化的知识图谱相对复杂,使用难度大同时大模型(llm)参数多,部署条件有限,使用处理具有一定难度,这些条件都使得分析传统文化数据具有挑战性。

2、现有方案中,主要是将文化书籍数据直接进行ocr,简单处理后直接存储数据库,人工面对解析后庞大的数据依然只能逐页或者按某些关键词简单搜索,无法解决快速提炼高价值文化知识内容的目标,一些结构化的方式通过实体识别、关系抽取等方式能够提取文化数据中实体类型的知识,但是大量的实体存在信息较少、同名歧义等问题,没有将实体与知识图谱进行关联,无法快速、准确的获取丰富文化知识。


技术实现思路

1、基于此,本专利技术为解决人工面对解析后的庞大的数据无法快速提炼高价值文化知识内容的问题,提供了一种针对文化书籍数据进行知识图谱分析的方法。

2、本专利技术提供了一种针对文化书籍数据进行知识图谱分析的方法,包括:

3、利用ocr技术对文化书籍数据进行分析,并对ocr的结果进行结构化处理,得到所述文化书籍数据的标题、段落和章节文本数据;

4、遍历章节文本数据,合并清洗所有段落文本数据的实体、关系和事件;

5、基于章节文本数据、段落文本数据、段落文本数据的实体、关系和事件构建索引并存储;

6、采用可视化直观展示文化书籍数据的分析结果,利用构建的索引从实体、关系跳转到对应的段落文本数据,实现信息的快速获取和分析。

7、在利用ocr技术对文化书籍数据进行分析之前,判断所述文化书籍数据是否是电子化;

8、若所述文化书籍数据是电子化,则利用ocr技术对文化书籍数据进行分析;

9、若所述文化书籍数据不是电子化,则需要将所述文化书籍数据预先扫描转化为pdf格式数据,再利用ocr技术对转化为pdf格式数据的所述文化书籍数据进行分析。

10、所述文化书籍数据的标题、段落和章节文本数据的获取包括,

11、将电子化后的文化书籍数据利用ocr技术进行分析,ocr抽取的原始结果为单句文本以及文本对应的坐标位置,坐标位置是由四个坐标点组合成的矩形框,通过对单句文本之间坐标位置进行差值计算将单句组合为段落文本数据;

12、通过单句坐标可以计算字高h,统计所有单句的字高,若字高大于字高均值的30%,则判断为标题文本数据;

13、所述章节文本数据由位于两个标题文本数据之间的段落文本数据组成。

14、在合并清洗所有段落文本数据的实体、关系和事件之前,需要判断是否遍历所述章节文本数据中的所有段落文本数据;

15、若未遍历所述所有段落文本数据,则抽取段落文本数据中的实体、关系,利用所述实体调用实体链接,获取所述实体对应的知识图谱实体id,根据所述知识图谱实体id,获取所述实体详细知识,并继续判断是否遍历所述章节文本数据中的所有段落文本数据;

16、若已遍历所述所有段落文本数据,则合并清洗所有段落文本数据的实体、关系和事件。

17、包括,

18、遍历所述所有段落文本数据,调用大模型抽取每个段落文本中包含的实体,所述实体包括人物、机构、地理、作品、诗句,利用规则逻辑抽取时间、朝代实体,将段落文本数据按句号进行细粒度切分,利用实体进一步判断出事件与关系信息。

19、所述实体链接的操作还包括,

20、遍历每个实体,从段落文本数据中截取上下文文本,对实体进行实体链接,并判断所述实体是否在已有的知识图谱种存在;

21、若存在,则根据所述上下文文本判断所述实体与知识图谱中的同名实体是否一致;若一致,则直接获得对应的知识图谱实体id并将实体链接成功标记记为true;

22、若不一致或不存在,则知识图谱实体id为空并且实体链接成功标记为false。

23、遍历每个实体链接成功标记为true的实体,根据知识图谱实体id从知识图谱中查询实体的详细属性。

24、将所有段落文本数据的实体、关系和事件合并清洗,清洗完成后针对每个实体、关系和事件构建全局段落文本数据段落映射信息。

25、将所述实体的详细属性和全局段落文本数据段落映射信息存入数据库即可完成文化书籍数据的存储索引与持久化。

26、有益效果:本专利技术利用大模型充分提取文化书籍数据中的实体、关系和事件等关键结构化数据,并且结合知识图谱为结构化数据提供丰富、准确的文化知识,可实现高效分析文化数据。

27、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种针对文化书籍数据进行知识图谱分析的方法,其特征在于,包括:

2.根据权利要求1所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:在利用OCR技术对文化书籍数据进行分析之前,判断所述文化书籍数据是否是电子化;

3.根据权利要求1或2所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:所述文化书籍数据的标题、段落和章节文本数据的获取包括,

4.根据权利要求3所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:在合并清洗所有段落文本数据的实体、关系和事件之前,需要判断是否遍历所述章节文本数据中的所有段落文本数据;

5.根据权利要求4所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:包括,

6.根据权利要求5所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:所述实体链接的操作还包括,

7.根据权利要求6所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:遍历每个实体链接成功标记为true的实体,根据知识图谱实体id从知识图谱中查询实体的详细属性

8.根据权利要求7所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:将所有段落文本数据的实体、关系和事件合并清洗,清洗完成后针对每个实体、关系和事件构建全局段落文本数据段落映射信息。

9.根据权利要求8所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:将所述实体的详细属性和全局段落文本数据段落映射信息存入数据库即可完成文化书籍数据的存储索引与持久化。

...

【技术特征摘要】

1.一种针对文化书籍数据进行知识图谱分析的方法,其特征在于,包括:

2.根据权利要求1所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:在利用ocr技术对文化书籍数据进行分析之前,判断所述文化书籍数据是否是电子化;

3.根据权利要求1或2所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:所述文化书籍数据的标题、段落和章节文本数据的获取包括,

4.根据权利要求3所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:在合并清洗所有段落文本数据的实体、关系和事件之前,需要判断是否遍历所述章节文本数据中的所有段落文本数据;

5.根据权利要求4所述的一种针对文化书籍数据进行知识图谱分析的方法,其特征在于:包括,

【专利技术属性】
技术研发人员:辛宇
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1