本发明专利技术涉及政务问询技术领域,尤其涉及一种生成六维知识图谱的系统,包括知识库、领域识别模块、意图识别模块、槽填充模块、相似度计算模块和评价模块;所述知识库为来自政府站点和各种垂直站点的民生、企业、办事领域的半结构化和结构化数据;所述领域识别模块用于对用户咨询的问题进行识别和划分相对应的政务领域;本发明专利技术在政务信息服务方面、政府网站智能搜索系统、智能问答系统,提供民生办事领域、政策咨询、投诉建议等交互服务。知识图谱是AI核心基础能力,在为政务知识库构建,比如政府门户网站知识库、AI人工智能+政务层面、政府部门专题分析和决策研究和舆情监控等方面提供基础的数据支持。
A system for generating six dimensional knowledge map
【技术实现步骤摘要】
一种生成六维知识图谱的系统
本专利技术涉及政务问询
,尤其涉及一种生成六维知识图谱的系统。
技术介绍
知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段。
技术实现思路
有鉴于此,本专利技术的目的是提供一种生成六维知识图谱的系统,本专利技术在政务信息服务方面、政府网站智能搜索系统、智能问答系统,提供民生办事领域、政策咨询、投诉建议等交互服务。知识图谱是AI核心基础能力,在为政务知识库构建,比如政府门户网站知识库、AI(人工智能)+政务层面、政府部门专题分析和决策研究和舆情监控等方面提供基础的数据支持。本专利技术的目的是提供一种生成六维知识图谱的系统,包括知识库、领域识别模块、意图识别模块、槽填充模块、相似度计算模块和评价模块;所述知识库为来自政府站点和各种垂直站点的民生、企业、办事领域的半结构化和结构化数据;所述领域识别模块用于对用户咨询的问题进行识别和划分相对应的政务领域;所述意图识别模块对用户咨询的问题是否在相对应的政务领域,以及咨询的意图目的是否明确进行判断,意图识别模块的下一步与槽填充模块和相似度计算模块连接;所述槽填充模块根据与用户追问问答的过程中从数据库获取信息进行咨询问题的填充,所述槽填充模块下一步与相似度计算模块连接;所述相似度计算模块从知识库中的垂直站点和政府站点数据进行相似的数据获取,然后统计特定的指标生成问答答案;所述用户通过评价模块对生成的问答答案进行打分评价。进一步,为了提高搜索质量,特别是提供如对话搜索和复杂问答等新的搜索体验,不仅要求知识图谱包含大量高质量的常识性知识,还要能及时发现并添加新的知识。在这种背景下,知识图谱通过自动提取来自政府站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。为防止智能图谱自动学习模式获得的知识出现错误(比如可能会遗漏部分重要的属性,也可能产生错误的抽取结果),本专利技术通过构建工具来可视化这些模式,并人工调整或新增合适的模式用于抽取。此外,通过人工评估抽取的结果,将那些抽取结果不令人满意的典型数据进行再标注来更新训练样本,从而达到主动学习的目的。而另一方面,通过搜索日志发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。这些知识通过应用到智能问答项目中反复测试、总结、评估其置信度,最后通过人工审核加入到知识图谱中。进一步,所述领域识别模块从人工标注的数据中抽取特征,并进行分类器的训练。进一步,所述槽填充模块针对与客户追问的问答中的文本信息进行设计标签和编写特征模块,然后将标签和特征模块进行模型训练并存储到政务知识图谱中。进一步,所述相似度计算模块从站点数据和垂直站点数据进行数据抓取,然后对抓取的数据进行结构化的处理存储到政务知识图谱中,自动对结构化的数据进行打分并增加到知识库。进一步,所述评价模块通过核查用户对答案的评价“不满意”数据或搜索历史日志数据人工调整或者添加模型用于抽取知识,将这些知识通过模型自动训练,最后通过人工审核加入到知识图谱中,进一步完善政务知识图谱。进一步,所述数据获取是从各种类型的数据源抽取构建知识图谱所需的各种候选实体及其属性关联,形成了一个个孤立的抽取知识,将这些信息孤岛集成在一起,形成政务知识图谱,所述从数据源抽取知识到形成政务知识图谱包括实体对齐、知识图谱构建、不一致性解决、数据分析和政务知识图谱的更新和维护。进一步,所述实体对齐采用聚类的系统将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。实体对齐指在发现具有不同ID但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。采用的系统是聚类,聚类的关键在于定义合适的相似度度量。这些相似度度量遵循如下观察:具有相同描述的实体可能代表同一实体(字符相似);具有相同属性-值的实体可能代表相同对象(属性相似);具有相同邻居的实体可能指向同一个对象(结构相似)。在此基础上,为了解决大规模实体对齐存在的效率问题,各种基于数据划分或分割的算法被提出将实体分成一个个子集,在这些子集上使用基于更复杂的相似度计算的聚类并行地发现潜在相同的对象。另外,利用训练数据结合相似度计算使用如标签传递等基于图的半监督学习算法发现更多相同的实体对。无论何种自动化方法都无法保证100%的准确率,所以这些方法的产出结果将作为候选供人工进一步审核和过滤。进一步,所述知识图谱构建采用的系统是自顶向下和自底向上相结合的方式构建最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域概念集以及关系值域概念集。模式是对知识的提炼,而且遵循预先给定的模式有助于知识的标准化,更利于查询等后续处理。为知识图谱构建模式相当于为其建立本体。最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域概念集以及关系值域概念集。采用的系统是自顶向下和自底向上相结合的方式。自顶向下的方式是指通过本体编辑器预先构建本体。本体构建是依赖于从结构化数据得到的高质量知识中所提取的模式信息。定义好的模式可被用于抽取属于某个Type或满足某个事物的新实体(或实体对)。另一方面,自底向上的方式则是通过搜索日志和WebTable抽取发现的类别、属性和关系,并将这些置信度高的模式合并到知识图谱中。合并过程将使用类似实体对齐的对齐算法。对于未能匹配原有知识图谱中模式的类别、属性和关系作为新的模式加入知识图谱供人工过滤。进一步,所述不一致性解决通过手工指定规则来定义或优先采用可靠性高的数据抽取得到的事实。构成知识图谱时,有一些实体会同时属于两个互斥的类别(如男女),这样就会出现不一致性。这些互斥的类别知识可以视为一个模式层的知识,规模不是很大时可以通过手工指定规则来定义;规模很大时,优先采用那些可靠性高的数据源(如结构化数据)抽取得到的事实。进一步,所述数据分析通过定义知识属性和关系进行数据延伸推理和分析,通本文档来自技高网...
【技术保护点】
1.一种生成六维知识图谱的系统,其特征在于,包括知识库、领域识别模块、意图识别模块、槽填充模块、相似度计算模块和评价模块;/n所述知识库为来自政府站点和各种垂直站点的民生、企业、办事领域的半结构化和结构化数据;/n所述领域识别模块用于对用户咨询的问题进行识别和划分相对应的政务领域;/n所述意图识别模块对用户咨询的问题是否在相对应的政务领域,以及咨询的意图目的是否明确进行判断,意图识别模块的下一步与槽填充模块和相似度计算模块连接;/n所述槽填充模块根据与用户追问问答的过程中从数据库获取信息进行咨询问题的填充,所述槽填充模块下一步与相似度计算模块连接;/n所述相似度计算模块从知识库中的垂直站点和政府站点数据进行相似的数据获取,然后统计特定的指标生成问答答案;/n所述用户通过评价模块对生成的问答答案进行打分评价。/n
【技术特征摘要】
1.一种生成六维知识图谱的系统,其特征在于,包括知识库、领域识别模块、意图识别模块、槽填充模块、相似度计算模块和评价模块;
所述知识库为来自政府站点和各种垂直站点的民生、企业、办事领域的半结构化和结构化数据;
所述领域识别模块用于对用户咨询的问题进行识别和划分相对应的政务领域;
所述意图识别模块对用户咨询的问题是否在相对应的政务领域,以及咨询的意图目的是否明确进行判断,意图识别模块的下一步与槽填充模块和相似度计算模块连接;
所述槽填充模块根据与用户追问问答的过程中从数据库获取信息进行咨询问题的填充,所述槽填充模块下一步与相似度计算模块连接;
所述相似度计算模块从知识库中的垂直站点和政府站点数据进行相似的数据获取,然后统计特定的指标生成问答答案;
所述用户通过评价模块对生成的问答答案进行打分评价。
2.根据权利要求1所述的一种生成六维知识图谱的系统,其特征在于,所述领域识别模块从人工标注的数据中抽取特征,并进行分类器的训练。
3.根据权利要求1所述的一种生成六维知识图谱的系统,其特征在于,所述槽填充模块针对与客户追问的问答中的文本信息进行设计标签和编写特征模块,然后将标签和特征模块进行模型训练并存储到政务知识图谱中。
4.根据权利要求1所述的一种生成六维知识图谱的系统,其特征在于,所述相似度计算模块从站点数据和垂直站点数据进行数据抓取,然后对抓取的数据进行结构化的处理存储到政务知识图谱中,自动对结构化的数据进行打分并增加到知识库。
5.根据权利要求1所述的一种生成六维知识图谱的系统...
【专利技术属性】
技术研发人员:曾勇,
申请(专利权)人:国衡智慧城市科技研究院北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。