一种基于医疗领域网站的知识图谱构建方法技术

技术编号：20724978 阅读：24 留言：0更新日期：2019-03-30 17:42

本发明专利技术公开了一种基于医疗领域网站的知识图谱构建方法，其特征在于，包括步骤1：根据预设医疗领域的数据源采集实体、实体属性及语料；步骤2：基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取；步骤3：知识融合与图谱生成。达到在知识层面提供有效、完备、可靠的疾病知识；辅助医疗领域内的智能问答和领域内语义搜索和查询理解的有益效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于医疗领域网站的知识图谱构建方法
本专利技术涉及人工智能和数据挖掘
，特别是涉及一种基于医疗领域网站的知识图谱构建方法。
技术介绍
大数据、物联网和深度学习等技术的快速发展，使得人工智能在近几年得到了很大发展。在医疗领域，医务人员诊疗压力大、老百姓看病难、医患纠纷频发等问题使得医疗领域成为人工智能应用最活跃和最广泛的领域之一。人工智能在医疗领域的应用涉及在辅助诊疗、健康管理、信息化管理、医学影像等方面，其中语义搜索、查询理解和自动问答都需要依赖医疗领域的知识图谱，以辅助计算机理解和解决领域问题。知识图谱是一种基于图的数据结构，由实体(节点)和实体间的关系(边)组成，本质是一种语义网络。知识图谱把不同类型的数据连接到一张关系网络中，进而具备从“关系”角度去分析问题的能力。知识图谱按照覆盖面可分为通用知识图谱和领域知识图谱，通用知识图谱强调知识的广度，主要应用于搜索引擎，即“语义搜索”，在单个领域内检索的准确率不高。领域知识图谱强调知识的深度，具有较强的针对性和专业性，一般应用于领域内的数据挖掘或决策支持等。通过领域知识图谱，用户可以迅速有效的获取相关知识以及知识之间的逻辑关系，进而更全面的了解领域信息。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足，提供一种基于医疗领域网站的知识图谱构建方法。为解决上述技术问题，本专利技术提供一种基于医疗领域网站的知识图谱构建方法，其特征在于，包括以下步骤：步骤1：根据预设医疗领域的数据源采集实体、实体属性及语料；选取领域的行业网站作为数据源，从结构化网页中抽取医疗领域的实体以及实体的属性作为结构化...

【技术保护点】
1.一种基于医疗领域网站的知识图谱构建方法，其特征在于，包括以下步骤：步骤1：根据预设医疗领域的数据源采集实体、实体属性及语料；选取领域的行业网站作为数据源，从结构化网页中抽取医疗领域的实体以及实体的属性作为结构化数据，从非结构化网页中抽取医疗领域的长文本做为非结构化数据，即语料；步骤2：基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取实体；具体为，从步骤1中采集的语料中以中文单字为特征，选用word2vec模型进行训练，得到单个字符的嵌入表示(char embedding)，以char embedding为特征，将包含待识别实体对的文本进行数字化表示，并输入到BiLSTM模型中进行训练识别，输出实体关系对的结果；步骤3：知识融合与图谱生成；对步骤1中获取的实体和实体的属性进行冲突校验，依据其来源网站的网站世界排名和出现频次进行知识融合；所述知识融合是指，对冲突的实体对A和实体对B，比较其来源网站的知名度，保留知名度更高网站数据，当知名度无法区分两者，或两者网站知名度相近时，比较实体对A和实体对B在语料中的频次，保留频次更高的实体对，对频次相同或接近的实体对，进行人工校验；...

【技术特征摘要】
1.一种基于医疗领域网站的知识图谱构建方法，其特征在于，包括以下步骤：步骤1：根据预设医疗领域的数据源采集实体、实体属性及语料；选取领域的行业网站作为数据源，从结构化网页中抽取医疗领域的实体以及实体的属性作为结构化数据，从非结构化网页中抽取医疗领域的长文本做为非结构化数据，即语料；步骤2：基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取实体；具体为，从步骤1中采集的语料中以中文单字为特征，选用word2vec模型进行训练，得到单个字符的嵌入表示(charembedding)，以charembedding为特征，将包含待识别实体对的文本进行数字化表示，并输入到BiLSTM模型中进行训练识别，输出实体关系对的结果；步骤3：知识融合与图谱生成；对步骤1中获取的实体和实体的属性进行冲突校验，依据其来源网站的网站世界排名和出现频次进行知识融合；所述知识融合是指，对冲突的实体对A和实体对B，比较其来源网站的知名度，保留知名度更高网站数据，当知名度无法区分两者，或两者网站知名度相近时，比较实体对A和实体对B在语料中的频次，保留频次更高的实体对，对频次相同或接近的实体对，进行人工校验；以步骤2中实体关系对的结果为基础，进行实体关系的知识融合，包括：合并重复的实体关系对，对冲突的实体关系进行校验，依据其来源网站的网站世界排名和出现频次，保留网站世界排名最高的数据源中识别出的实体关系对；通过Redis数据库以Key-Value的形式保存实体和实体的属性，通过图数据库Neo4j以Node-Relation-Node的形式保存实体间的关系，两个数据库通过Redis中的键(Key)关联，形成该领域的知识图谱。2.如权利要求1所述的一种基于医疗领域网站的知识图谱构建方法，其特征在于：所述步骤1中知识图谱为疾病知识图谱；所述疾病知识图谱的概念模型中，定义了四个实体分类，所述实体的分类包括：疾病类、症状类、器官类和常规检查类；所述疾病类的属性包括：名称，别名，定...

【专利技术属性】
技术研发人员：王颖，王婷，
申请(专利权)人：焦点科技股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人