一种基于知识图谱的文物问答系统与问答方法技术方案

技术编号：33535141 阅读：12 留言：0更新日期：2022-05-19 02:14

一种基于知识图谱的文物问答系统与问答方法，构建基于文物数据的知识图谱、高频查询问题展示、构建常见问题模板；对输入问题进行词嵌入，基于BERT的预训练模型、BERT、BILSTM、CRF完成命名实体识别、关系抽取的过程，最终将相关实体与关系对应到问题查询模板，构建CQL查询语句，接着再去到NEO4J表示的知识图谱中查询相关结果进行返回，最终显示给用户。该系统能够让游客更加了解相关文物的背景等相关延伸信息，提升用户浏览的感受。提升用户浏览的感受。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图谱的文物问答系统与问答方法

[0001]本专利技术属于知识图谱、自然语言处理
，具体涉及一种基于知识图谱的文物问答系统与问答方法。

技术介绍

[0002]现在，游客在观看博物馆展品时，某个文物的信息更多的是由导游来进行讲解。有导游时，导游也是一个一对多的状态，不能满足大家个性化的偏好。没有导游时，部分游客会觉得这个文物没什么意思，就是一个死东西。传统情况下，用户只能面向公共领域的搜索引擎进行问题搜索，但是展示的结果无关信息过多，也不能很好的准确关联到相关其它信息。而基于知识图谱的问答系统，用户在用自然语言提问搜索之后，返回的是本领域内最相关的，最准确的信息，使用户能更加方便且高效的获取到想要的信息，并扩展出更多的相关内容。而目前有关基于知识图谱的文物问答系统研究不是很多，这就成为了一个亟待解决的问题。

技术实现思路

[0003]为了克服上述现有技术的不足，本专利技术的目的是提供一种基于知识图谱的文物问答系统与问答方法。本系统首先通过网络爬虫技术将网络上与文物相关的信息爬取下来，然后进行数据整理，最终存储在NEO4J数据库中，形成文物领域的知识图谱；接着通过自然语言处理技术，用户以进行文字形式的提问，系统提取实体信息、关系信息后与常见问题模板进行匹配，生成CQL语句；接着用CQL语句从知识图谱中快速且准确的检索相关知识内容返回给用户，最终达形成一种基于知识图谱的文物问答系统与问答方法。
[0004]为了实现上述目的，本专利技术采用的技术方案是：一种基于知识图谱的博物馆文物问答...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的博物馆文物问答系统，其特征在于，包括以下组成：交互前端模块；构建文本预处理模块；构建匹配问题模块；构建知识图谱模块；所述的文本预处理模块包括分词模板、词性标注模板、命名实体识别模板；所述的匹配问题模块包括标注自然语言问句模板、关键部分替换模板、生成CQL语句模板；所述知识图谱模块包括文物数据爬取模板、数据整理模板、NEO4J模板。2.一种基于知识图谱的文物问答方法，其特征在于，包括以下步骤：步骤一，从原始网页中下载所有非结构化的文本信息，利用爬虫、正则表达式等技术提取所关注的信息，构建成为JSON文件，然后进行数据清理，最后再人工检查一次，确保数据没有问题，最终整理成为<实体一, 关系, 实体二>的形式数据存储到NEO4J表示的知识图谱中；步骤二，对用户输入的查询语句进行处理，基于BERT预训练模型的方式将文字表达为文本向量，最终再用基于BILSTM、CRF的模型架构完成命名实体识别与关系抽取的任务，至此已经得到了实体一、实体二、关系；步骤三，由实体+关系的方式去构建构建常见问题模板；根究对应的问题模板生成CQL到NEO4J中查询内容，并返回给前端展示。3.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的对文物关系定义为：年代、产地、作者、作品、收藏地、好友、师徒、地址、家人、研究、藏品。4.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的构建相关问句训练集，对其中实体、关系做标记，对问句使用BIO标记法进行标记。5.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的使用BERT完成word embeddings，讲文字转换成为数字向量。6.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的对嵌入之后的矩阵使用BiLSTM，包括：前向LSTM，每个词通过遗忘门和输入门完成对上文重要信息的融合
‘
...

【专利技术属性】
技术研发人员：贺小伟，冯强，
申请(专利权)人：西北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人