一种知识图谱的生成方法及装置制造方法及图纸

技术编号:14277567 阅读:129 留言:0更新日期:2016-12-24 20:22
本发明专利技术提供了一种知识图谱的生成方法及装置,该方法包括:对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;利用所述结构化数据对作为知识条目,构建知识图谱。本发明专利技术提出的知识图谱的生成方法,能够构建出具有针对性的知识图谱,满足指定领域,如儿童领域,的智能交互需求,提升不同需求用户的交互体验。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种用于儿童领域智能交互的知识图谱的生成方法及装置
技术介绍
儿童是目前市场上对智能硬件最容易接受的人群,其智能性主要体现在交互智能上,但针对儿童语言和知识处理与研究很少。普通的交互对话多数用检索的方式,构造一问一答的语料集,计算用户问题和语料问题的相似度,进而给出相应回复,这种属于浅层交互。深度交互需要构建知识图谱来进行知识挖掘和推理。知识图谱,是指以实体、概念作为节点,以语义关系作为边的语义网络。知识图谱使得知识获取更直接,因此能够为阅读提供语义关联的知识,从而实现阅读的便捷化、智能化和人性化。在实现本专利技术过程中,专利技术人发现现有技术中至少存在以下问题:现存的知识图谱多数都是普适目的,缺乏针对性,不足以满足儿童领域的智能交互需求。
技术实现思路
鉴于上述问题,本专利技术实施例提出了一种知识图谱的生成方法及装置,用以解决现有的知识图谱缺乏针对性,不足以满足指定领域,如儿童领域,的智能交互需求的问题。根据本专利技术的一个方面,提供了一种知识图谱的生成方法,该方法包括:对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;利用所述结构化数据对作为知识条目,构建知识图谱。可选地,所述方法还包括:从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据。可选地,所述对原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据,包括:根据所述原始文本数据的文档结构进行段落结构划分;对划分出的各段落结构进行词法、语法和/或语义分析,得到标准化文本数据。可选地,所述根据所述原始文本数据的文档结构进行段落结构划分,包括:根据文档结构分布特征确定所述原始文本数据的文档结构,根据所述文档结构对所述原始文本数据进行段落结构划分,或采用预先训练的段落分类器模型对所述原始文本数据的段落进行文档结构分类,根据分类结果对所述原始文本数据进行段落结构划分。可选地,所述对划分出的各段落结构进行词法、语法和/或语义分析,包括:若所述原始文本数据为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;若所述原始文本数据为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。可选地,所述从所述标准化文本数据中抽取事实信息,包括:对所述标准化文本数据进行知识抽取,得到所述标准化文本数据中存在的名词,以及各名词之间的关系;对知识抽取得到的结果进行事实信息的识别,得到所述事实信息。可选地,所述对所述标准化文本数据进行知识抽取,包括:根据各类别的名词的结构特征从所述标准化文本数据中抽取相应类别的名词以及各名词之间的关系,或采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类,根据分类结果识别并抽取各类别的名词以及各名词之间的关系。可选地,所述方法还包括:采用关系数据库方式对构建的知识图谱进行存储,或采用Hash表方式对构建的知识图谱进行存储,或采用索引方式对构建的知识图谱进行存储。可选地,所述方法还包括:根据构建的知识图谱进行人机交互。根据本专利技术的另一个方面,提供了一种知识图谱的生成装置,该系统包括:预处理单元,用于对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;信息抽取单元,用于从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;信息表示单元,用于采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;构建单元,用于利用所述结构化数据对作为知识条目,构建知识图谱。可选地,所述装置还包括:获取单元,用于从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据。可选地,所述预处理单元,包括:第一处理模块,用于根据所述原始文本数据的文档结构进行段落结构划分;第二处理模块,用于对划分出的各段落结构进行词法、语法和/或语义分析,得到标准化文本数据。可选地,所述信息抽取单元,包括:抽取模块,用于对所述标准化文本数据进行知识抽取,得到所述标准化文本数据中存在的名词,以及各名词之间的关系;识别模块,用于对知识抽取得到的结果进行事实信息的识别,得到所述事实信息。可选地,所述装置还包括:存储单元,用于采用关系数据库方式对构建的知识图谱进行存储,或,采用Hash表方式对构建的知识图谱进行存储,或,采用索引方式对构建的知识图谱进行存储。可选地,所述装置还包括:交互单元,用于根据构建的知识图谱进行人机交互。本专利技术提供的知识图谱的生成方法及装置,通过从指定领域的文本数据中抽取事实信息,以预设表现形式对事实信息进行表示,并采用以预设表现形式进行表示的结构化数据对作为知识条目,构建知识图谱,进而能够构建出具有针对性的知识图谱,满足指定领域,如儿童领域,的智能交互需求,提升不同需求用户的交互体验。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例提出的一种知识图谱的生成方法的流程图;图2为本专利技术另一实施例提出的一种知识图谱的生成方法的流程图;图3为本专利技术实施例提出的一种知识图谱的生成方法中步骤S11的细分流程图;图4为本专利技术实施例提出的一种知识图谱的生成方法中步骤S12的细分流程图;图5为本专利技术实施例提出的一种知识图谱的生成装置的结构框图;图6为本专利技术另一实施例提出的一种知识图谱的生成装置的结构框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。图1示出了本专利技术实施例的一种知识图谱的生成方法的流程图。参照图1,本专利技术实本文档来自技高网
...
一种知识图谱的生成方法及装置

【技术保护点】
一种知识图谱的生成方法,其特征在于,包括:对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;利用所述结构化数据对作为知识条目,构建知识图谱。

【技术特征摘要】
1.一种知识图谱的生成方法,其特征在于,包括:对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;利用所述结构化数据对作为知识条目,构建知识图谱。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据。3.根据权利要求1或2所述的方法,其特征在于,所述对原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据,包括:根据所述原始文本数据的文档结构进行段落结构划分;对划分出的各段落结构进行词法、语法和/或语义分析,得到标准化文本数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述原始文本数据的文档结构进行段落结构划分,包括:根据文档结构分布特征确定所述原始文本数据的文档结构,根据所述文档结构对所述原始文本数据进行段落结构划分,或采用预先训练的段落分类器模型对所述原始文本数据的段落进行文档结构分类,根据分类结果对所述原始文本数据进行段落结构划分。5.根据权利要求3所述的方法,其特征在于,所述对划分出的各段落结构进行词法、语法和/或语义分析,包括:若所述原始文本数据为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;若所述原始文本数据为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。6.根据权利要求1或2所述的方法,其特征在于,所述从所述标准化文本数据中抽取事实信息,包括:对所述标准化文本数据进行知识抽取,得到所述标准化文本数据中存在的名词,以及各名词之间的关系;对知识抽取得到的结果进行事实信息的识别,得到所述事实信息。7.根据权利要求6所述的方法,其特征在于,所述对所述标准化...

【专利技术属性】
技术研发人员:郭瑞郭祥雷宇
申请(专利权)人:北京智能管家科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1