本发明专利技术涉及一种公共文化知识图谱平台及其使用办法,该公共文化知识图谱平台包括:用于采集公共文化知识的采集处理系统,用于存储经所述采集处理系统所采集处理后的公共文化知识的存储处理系统,用于将所述存储处理系统所存储的公共文化知识进行分析处理的分析处理系统,提供公共文化知识查询的服务处理系统和对各处理系统实现调配管理的管理系统。本发明专利技术中,实现了对公共文化知识领域中的公共文化知识的快速、高效搜索,以及公共文化知识的聚合和挖掘。
【技术实现步骤摘要】
公共文化知识图谱平台及其使用办法
本专利技术属于公共文化大数据共享服务领域,具体涉及计算机知识管理和知识挖掘的人工智能方法,特别涉及一种公共文化知识图谱平台及其使用办法。
技术介绍
公共文化服务是指为公众提供的文化信息、文化资源的服务。随着网络公共文化服务的快速发展,产生了大量的文化资源和数据。解决网络公共文化资源共享的问题,成了公共文化服务的重点。在这些文化资源和数据中,蕴含着大量的文化知识。相对于单调的资源列表,公众更喜欢从资源中挖掘出的知识。这些知识连接着各种不同的资源,因此,基于知识的资源共享,成为了一种更高层次的公共文化共享服务。知识图谱是前沿人工智能技术,其基本思想来自于知识库技术,能够挖掘、管理、和分析大量的知识。知识图谱技术是一种交叉领域技术,涉及到知识工程、信息检索、语义网、大数据、自然语言处理、可视化技术、人工智能、机器学习、深度学习等领域。知识图谱可以将大规模数据中的隐藏的知识抽取出来,构建一个基于图的数据模型。对于知识图谱,可以使用多种分析方法进行深度的挖掘和分析。知识图谱应用广泛,可以用于认知研究、知识检索、语义搜索引擎、个性化推荐、金融欺诈分析、知识可视化等。知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱,如GoogleKnowledgeGraph等,整合各个领域的知识,知识面广泛,但不深入。领域知识图谱服务于某一个特定领域,知识领域比较集中,但有较好的专业性和深度。问题:当前的公共文化共享服务还停留在数据资源共享的阶段,用户获得的是列出的资源,例如,用户检索一个知识点,传统的检索系统返回给用户资源列表,用户必须逐个查看资源,从中提取和理解每个资源中的知识,其中还存有大量重复的知识。繁琐且枯燥的过程让用户对公共文化资源的兴趣迅速衰减。如何实现对公共文化知识领域中的快速、高效搜索公共文化知识成为了亟待解决的问题。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何实现对公共文化知识领域中的快速、高效搜索公共文化知识的问题,本专利技术提供了一种公共文化知识图谱平台,包括:用于采集公共文化知识的采集处理系统,用于存储经所述采集处理系统所采集处理后的公共文化知识的存储处理系统,用于将所述存储处理系统所存储的公共文化知识进行分析处理的分析处理系统,提供公共文化知识查询的服务处理系统和对各处理系统实现调配管理的管理系统。优选地,所述采集处理系统包括数据采集处理模块、知识模板模块和知识挖掘模块;所述数据采集处理模块,具体包括用于采集所有数据源并对其进行相应处理;所述知识模板模块,用于在所述数据采集处理模块处理数据源时提供模板支持作为判定依据;所述知识挖掘模块,用于在所述数据采集处理模块处理的数据中进行公共文化知识挖掘。优选地,所述数据采集处理模块具体包括采集单元、数据清洗单元、数据转换单元、判定器单元和自然语言处理单元,所述采集单元,用于采集数据源;所述数据清洗单元,用于将所述采集单元所采集的所有数据源进行噪声数据消除和数据消重处理;所述判定器单元,用于对所述数据清洗单元处理前的数据进行有效性判定,当判定结果为无效数据时,由所述数据清洗单元进行数据清洗;否则保留数据。所述数据转换单元,用于将经所述数据清洗单元清洗后的数据进行格式转换;所述自然语言处理单元,用于将经所述数据转换单元格式转换后的数据进行自然语言处理后存储。优选地,所述知识挖掘模块具体包括知识抽取单元、知识融合单元、知识扩展单元和知识验证单元,所述知识抽取单元与所述自然语言处理单元通信连接,用于将经所述语言处理单元自然语言处理后得到的数据中提取出公共文化实体,以及实体之间的语义关系;所述知识融合单元,用于对相同实体或相似实体的融合、相同实体属性或相似实体属性的融合,以及相同实体关系或相似实体关系的融合;所述知识扩展单元,用于对所述存储处理系统中所存储的公共文化知识进行数据扩展挖掘;所述知识验证单元,用于对经所述知识融合单元和所述知识扩展单元处理后的公共文化知识进行验证,验证后的公共文化知识由所述存储处理系统保存。优选地,所述存储处理系统用于分类存储所有的公共文化知识数据,包括存储各种结构化数据的第一存储模块、存储图片、视频数据的第二存储模块、存储知识图谱模型的第三存储模块、存储文本文档的第四存储模块、存储本体模型和规则模板的第五存储模块以及存储系统数据的第六存储模块。优选地,所述第一存储模块具体为关系型数据库集群,所述第二存储模块具体为分布式文件系统,所述第三存储模块具体为图数据库,所述第四存储模块具体为文档数据库,所述第五存储模块具体为可扩展标记语言XML,以及所述第六存储模块具体为列数据库。优选地,所述公共文化知识图谱平台还包括与所述管理系统通信连接的调配处理系统,所述调配处理系统用于根据所述管理系统的指示对其所连接的各处理系统进行统一调配处理。优选地,所述调配处理系统中还包括用于为所述分析处理系统提供数据分析时所需使用计算框架的计算框架模块,为所述分析处理系统提供数据分析时所需使用算法的算法库模块,以及为所述存储处理系统中所存储的模型提供配置的模型管理模块。本专利技术还提供了一种公共文化知识图谱平台的使用方法,包括:接收公共文化知识的查询请求;根据所述查询请求查询公共文化知识;将查询到公共文化知识进行展示。与现有技术相比,本专利技术至少具有以下优点:通过本专利技术的设计,实现了对公共文化知识领域中的公共文化知识的快速、高效搜索,以及公共文化知识的聚合和挖掘。附图说明图1是本专利技术所提供的公共文化知识图谱平台中的公共文化知识图谱的示意图;图2是本专利技术所提供的公共文化知识图谱平台的使用方法的流程示意图;图3是本专利技术所提供的公共文化知识图谱平台工作流程的示意图图4是本专利技术所提供的公共文化知识图谱平台的架构流程示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。如图1所示,描述了知识图谱平台中的知识图谱的基本结构。知识图谱的基本结构是图。图论中对图的基本定义为G=(V,E):V为点集,E为边集,G为图,由点跟边构成。知识图谱由实体、实体属性、关系、关系属性构成。实体描述现实世界中的事物,如三国演义,罗贯中;实体属性描述实体的属性,如图1所示,上方的点是三国演义实体,它的2个属性是{名称:三国演义;题材:小说};关系描述实体之间的关系,如三国演义与罗贯中有关系,其属性描述为{小说:作者}。知识图谱的基本结构是图,其中实体表达为点,关系表达为点与点之间的连接线。本专利技术提出一种公共文化知识图谱平台的使用方法,下面结合附图,对本专利技术具体实施方式进行详细说明。如图2-4所示,该方法具体包括如下步骤:步骤201,接收公共文化知识的查询请求。步骤202,根据所述查询请求查询公共文化知识。步骤203,将查询到的公共文化知识进行展示。在上述步骤201-203中,在该公共文化知识图谱平台100接收到查询请求后,由服务处理系统104对外提供查询知识服务。其中,该服务处理系统104中具体包括了对于公共文化知识的实体、属性、和关系的搜索的知识查询模块1041,提供了公共文化知识的知识分析模块1042,允许第三方应用系统配置个性化的知识图谱的知识图本文档来自技高网...
【技术保护点】
一种公共文化知识图谱平台,其特征在于,包括:用于采集公共文化知识的采集处理系统,用于存储经所述采集处理系统所采集处理后的公共文化知识的存储处理系统,用于将所述存储处理系统所存储的公共文化知识进行分析处理的分析处理系统,提供公共文化知识查询的服务处理系统和对各处理系统实现调配管理的管理系统。
【技术特征摘要】
1.一种公共文化知识图谱平台,其特征在于,包括:用于采集公共文化知识的采集处理系统,用于存储经所述采集处理系统所采集处理后的公共文化知识的存储处理系统,用于将所述存储处理系统所存储的公共文化知识进行分析处理的分析处理系统,提供公共文化知识查询的服务处理系统和对各处理系统实现调配管理的管理系统。2.根据权利要求1所述的公共文化知识图谱平台,其特征在于,所述采集处理系统包括数据采集处理模块、知识模板模块和知识挖掘模块;所述数据采集处理模块,具体包括用于采集所有数据源并对其进行相应处理;所述知识模板模块,用于在所述数据采集处理模块处理数据源时提供模板支持作为判定依据;所述知识挖掘模块,用于在所述数据采集处理模块处理的数据中进行公共文化知识挖掘。3.根据权利要求2所述的公共文化知识图谱平台,其特征在于,所述数据采集处理模块具体包括采集单元、数据清洗单元、数据转换单元、判定器单元和自然语言处理单元,所述采集单元,用于采集数据源;所述数据清洗单元,用于将所述采集单元所采集的所有数据源进行噪声数据消除和数据消重处理;所述判定器单元,用于对所述数据清洗单元处理前的数据进行有效性判定,当判定结果为无效数据时,由所述数据清洗单元进行数据清洗;否则,保留数据;所述数据转换单元,用于将经所述数据清洗单元清洗后的数据进行格式转换;所述自然语言处理单元,用于将经所述数据转换单元格式转换后的数据进行自然语言处理后存储。4.根据权利要求3所述的公共文化知识图谱平台,其特征在于,所述知识挖掘模块具体包括知识抽取单元、知识融合单元、知识扩展单元和知识验证单元,所述知识抽取单元与所述语言处理单元通信连接,用于将经所述自然语言处理单元自然语言处理后得到的数据中提取出公共文化实体,以及实体之间的语义关系;所述知识融合单元,用于对相同实体或相似实体的融...
【专利技术属性】
技术研发人员:王健,张桂刚,杨颐,黄卫星,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。