一种知识图谱构建方法及构建系统技术方案

技术编号:34620625 阅读:13 留言:0更新日期:2022-08-20 09:27
本发明专利技术涉及知识图谱领域,尤其涉及一种知识图谱构建方法及构建系统。系统包括数据挖掘模块、逻辑连接建立模块、体系连接模块和应用模块。本发明专利技术中的知识图谱构建系统从海量数据中挖掘相关领域、相关行业的用户信息以及产品信息,通过第一次的信息提取、合并,建立,结构化数据集和非结构化数据集,第二次的信息提取、合并,完成信息在模式上的连接与数据上的连接,以SPO三元组形式形成完整的数据库。再对不同实体的要素进行信息融合、修正,形成知识图谱。实现对信息关系的深度挖掘、连接,信息融合的高,关联性强,使得特定领域的垂直行业信息分析更具有准确性、高效性和智能性,增强用户感受,提升搜索转化率。提升搜索转化率。提升搜索转化率。

【技术实现步骤摘要】
一种知识图谱构建方法及构建系统


[0001]本专利技术涉及知识图谱领域,尤其涉及一种知识图谱构建方法及构建系统。

技术介绍

[0002]随着网络信息时代的来临,出现很多特定领域、行业的网站,但由于内容关联度、页内浏览的流畅度以及产品的定位,品类丰富程度等原因,导致浏览后的转化率不高。而现有的知识图谱系统作为一种新型的数据搜索形式,通过将相关联的数据实体提取并统一起来,实现部分解决上述问题。但仍存在着信息关系挖掘不足,信息融合不高的问题。

技术实现思路

[0003]针对
技术介绍
中存在的问题,提出一种知识图谱构建方法及构建系统。本专利技术中的知识图谱构建系统从海量数据中挖掘相关领域、相关行业的用户信息以及产品信息,通过第一次的信息提取、合并,建立,结构化数据集和非结构化数据集,第二次的信息提取、合并,完成信息在模式上的连接与数据上的连接,以SPO三元组形式形成完整的数据库。再对不同实体的要素进行信息融合、修正,形成知识图谱。实现对信息关系的深度挖掘、连接,信息融合的高,关联性强,使得特定领域的垂直行业信息分析更具有准确性、高效性和智能性,增强用户感受,提升搜索转化率。
[0004]本专利技术提出一种知识图谱构建系统,包括数据挖掘模块、逻辑连接建立模块、体系连接模块和应用模块。数据挖掘模块包括信息挖掘单元和分类单元,采用集成爬取工具对用户信息挖掘以及产品信息的挖掘,得到相关信息点,将信息点分类为实体(实体1、实体2...实体n)和属性(属性1、属性2...属性n)。逻辑连接建立模块包括数据库建立单元、数据整合单元和信息抽取单元,通过对实体和属性进行信息提取、合并,得到结构化数据集和非结构化数据集,再分别对两个数据集进行数据整合和信息抽取,提取出相关联的实体、关系、属性信息,并以SPO三元组形式,例如(实体1、关系、实体2)、(实体1、属性2、属性2)形成完整的数据库。体系连接模块包括信息融合单元、信息更新单元和知识图谱构建单元,通过在同一框架规范下进行信息的异构数据整合,对不同实体的要素进行信息融合,消除实体、关系、属性与事实对象之间的歧义,达到信息融合的目的,最终形成知识图谱。应用模块包括输入单元、智能搜索单元、语音搜索单元和输出单元。
[0005]优选的,用户信息包括商家的背景信息、作品风格、销售策略和市场评价。
[0006]优选的,产品信息包括产品特点、受众群体、市场反馈和销售记录。
[0007]优选的,逻辑连接建立模块包括模式连接与数据连接;数据连接主由一系列的事实组成,而信息点将以事实为单位进行存储;模式连接构建在数据连接上,通过最终的数据库来规范数据连接的一系列事实表达。
[0008]优选的,信息抽取单元主要是面向开放的链接数据,通过自动化的技术抽取出可用的信息单元,有三个主要工作:实体抽取、关系抽取和属性抽取。
[0009]优选的,实体抽取是从结构化数据集和非结构化数据集中自动识别出命名实体。
由于实体是知识图谱中的最基本元素,其抽取的完整性、准确、召回率等将直接影响到知识库的质量。
[0010]优选的,关系抽取通过提前建立关系模型,设置预定义的语法与规则,解决实体间语义链接的问题。
[0011]优选的,知识图谱构建单元需要进行实体对齐,将其相关属性进行交叉连接,做出修正后,再完成本体构建;同时知识图谱通过知识更新单元定期进行自我修正。
[0012]优选的,应用与特定领域的垂直行业信息分析。
[0013]本专利技术又提出一种知识图谱构建方法,步骤如下:
[0014]S1、采用集成爬取工具对用户信息挖掘以及产品信息的挖掘,得到相关信息点,将信息点分类为实体(实体1、实体2...实体n)和属性(属性1、属性2...属性n);
[0015]S2、通过对实体和属性进行信息提取、合并,得到结构化数据集和非结构化数据集,再分别对两个数据集进行数据整合和信息抽取,提取出相关联的实体、关系、属性信息,完成模式连接与数据连接,以SPO三元组形式形成完整的数据库;
[0016]S3、通过在同一框架规范下进行信息的异构数据整合,对不同实体的要素进行信息融合,消除实体、关系、属性与事实对象之间的歧义,达到信息融合的目的,最终形成知识图谱。
[0017]与现有技术相比,本专利技术具有如下有益的技术效果:
[0018]本专利技术中的知识图谱构建系统通过数据挖掘模块、逻辑连接建立模块、体系连接模块和应用模块互相配合,从海量数据中挖掘相关领域、相关行业的用户信息以及产品信息,通过第一次的信息提取、合并,建立,结构化数据集和非结构化数据集,第二次的信息提取、合并,完成信息在模式上的连接与数据上的连接,以SPO三元组形式形成完整的数据库。再对不同实体的要素进行信息融合、修正,形成知识图谱。实现对信息关系的深度挖掘、连接,信息融合的高,关联性强,使得特定领域的垂直行业信息分析更具有准确性、高效性和智能性,增强用户感受,提升搜索转化率。
附图说明
[0019]图1为本专利技术一种实施例中的方法流程图。
具体实施方式
[0020]实施例一
[0021]本专利技术中的一种知识图谱构建系统,包括数据挖掘模块、逻辑连接建立模块、体系连接模块和应用模块。数据挖掘模块包括信息挖掘单元和分类单元,采用集成爬取工具对用户信息挖掘以及产品信息的挖掘,得到相关信息点,将信息点分类为实体(实体1、实体2...实体n)和属性(属性1、属性2...属性n)。逻辑连接建立模块包括数据库建立单元、数据整合单元和信息抽取单元,通过对实体和属性进行信息提取、合并,得到结构化数据集和非结构化数据集,再分别对两个数据集进行数据整合和信息抽取,提取出相关联的实体、关系、属性信息,并以SPO三元组形式,例如(实体1、关系、实体2)、(实体1、属性2、属性2)形成完整的数据库。体系连接模块包括信息融合单元、信息更新单元和知识图谱构建单元,通过在同一框架规范下进行信息的异构数据整合,对不同实体的要素进行信息融合,消除实体、
关系、属性与事实对象之间的歧义,达到信息融合的目的,最终形成知识图谱。应用模块包括输入单元、智能搜索单元、语音搜索单元和输出单元。
[0022]进一步的,用户信息包括商家的背景信息、作品风格、销售策略和市场评价。
[0023]进一步的,产品信息包括产品特点、受众群体、市场反馈和销售记录。
[0024]进一步的,逻辑连接建立模块包括模式连接与数据连接;数据连接主由一系列的事实组成,而信息点将以事实为单位进行存储;模式连接构建在数据连接上,通过最终的数据库来规范数据连接的一系列事实表达。
[0025]进一步的,信息抽取单元主要是面向开放的链接数据,通过自动化的技术抽取出可用的信息单元,有三个主要工作:实体抽取、关系抽取和属性抽取。
[0026]进一步的,实体抽取是从结构化数据集和非结构化数据集中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确、召回率等将直接影响到知识库的质量。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建系统,其特征在于,包括数据挖掘模块、逻辑连接建立模块、体系连接模块和应用模块;数据挖掘模块包括信息挖掘单元和分类单元,采用集成爬取工具对用户信息挖掘以及产品信息的挖掘,得到相关信息点,将信息点分类为实体(实体1、实体2...实体n)和属性(属性1、属性2...属性n);逻辑连接建立模块包括数据库建立单元、数据整合单元和信息抽取单元,通过对实体和属性进行信息提取、合并,得到结构化数据集和非结构化数据集,再分别对两个数据集进行数据整合和信息抽取,提取出相关联的实体、关系、属性信息,并以SPO三元组形式形成完整的数据库;体系连接模块包括信息融合单元、信息更新单元和知识图谱构建单元,通过在同一框架规范下进行信息的异构数据整合,对不同实体的要素进行信息融合,消除实体、关系、属性与事实对象之间的歧义,达到信息融合的目的,最终形成知识图谱;应用模块包括输入单元、智能搜索单元、语音搜索单元和输出单元。2.根据权利要求1所述的一种知识图谱构建系统,其特征在于,用户信息包括商家的背景信息、作品风格、销售策略和市场评价。3.根据权利要求1所述的一种知识图谱构建系统,其特征在于,产品信息包括产品特点、受众群体、市场反馈和销售记录。4.根据权利要求1所述的一种知识图谱构建系统,其特征在于,逻辑连接建立模块包括模式连接与数据连接;数据连接主由一系列的事实组成,而信息点将以事实为单位进行存储;模式连接构建在数据连接上,通过最终的数据库来规范数据连接的一系列事实表达。5.根据权利要求1所述的一种知识图谱构建系统,其特征在于,信息抽取单元主要是面向开放的链接数据,通过自...

【专利技术属性】
技术研发人员:尹莉丽
申请(专利权)人:上海麦开信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1