一种基于医疗领域网站的知识图谱构建方法技术

技术编号:20724978 阅读:24 留言:0更新日期:2019-03-30 17:42
本发明专利技术公开了一种基于医疗领域网站的知识图谱构建方法,其特征在于,包括步骤1:根据预设医疗领域的数据源采集实体、实体属性及语料;步骤2:基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取;步骤3:知识融合与图谱生成。达到在知识层面提供有效、完备、可靠的疾病知识;辅助医疗领域内的智能问答和领域内语义搜索和查询理解的有益效果。

【技术实现步骤摘要】
一种基于医疗领域网站的知识图谱构建方法
本专利技术涉及人工智能和数据挖掘
,特别是涉及一种基于医疗领域网站的知识图谱构建方法。
技术介绍
大数据、物联网和深度学习等技术的快速发展,使得人工智能在近几年得到了很大发展。在医疗领域,医务人员诊疗压力大、老百姓看病难、医患纠纷频发等问题使得医疗领域成为人工智能应用最活跃和最广泛的领域之一。人工智能在医疗领域的应用涉及在辅助诊疗、健康管理、信息化管理、医学影像等方面,其中语义搜索、查询理解和自动问答都需要依赖医疗领域的知识图谱,以辅助计算机理解和解决领域问题。知识图谱是一种基于图的数据结构,由实体(节点)和实体间的关系(边)组成,本质是一种语义网络。知识图谱把不同类型的数据连接到一张关系网络中,进而具备从“关系”角度去分析问题的能力。知识图谱按照覆盖面可分为通用知识图谱和领域知识图谱,通用知识图谱强调知识的广度,主要应用于搜索引擎,即“语义搜索”,在单个领域内检索的准确率不高。领域知识图谱强调知识的深度,具有较强的针对性和专业性,一般应用于领域内的数据挖掘或决策支持等。通过领域知识图谱,用户可以迅速有效的获取相关知识以及知识之间的逻辑关系,进而更全面的了解领域信息。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足,提供一种基于医疗领域网站的知识图谱构建方法。为解决上述技术问题,本专利技术提供一种基于医疗领域网站的知识图谱构建方法,其特征在于,包括以下步骤:步骤1:根据预设医疗领域的数据源采集实体、实体属性及语料;选取领域的行业网站作为数据源,从结构化网页中抽取医疗领域的实体以及实体的属性作为结构化数据,从非结构化网页中抽取医疗领域的长文本做为非结构化数据,即语料;步骤2:基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取实体;具体为,从步骤1中采集的语料中以中文单字为特征,选用word2vec模型进行训练,得到单个字符的嵌入表示(charembedding),以charembedding为特征,将包含待识别实体对的文本进行数字化表示,并输入到BiLSTM模型中进行训练识别,输出实体关系对的结果;步骤3:知识融合与图谱生成;对步骤1中获取的实体和实体的属性进行冲突校验,依据其来源网站的网站世界排名和出现频次进行知识融合;所述知识融合是指,对冲突的实体对A和实体对B,比较其来源网站的知名度,保留知名度更高网站数据,当知名度无法区分两者,或两者网站知名度相近时,比较实体对A和实体对B在语料中的频次,保留频次更高的实体对,对频次相同或接近的实体对,进行人工校验;以步骤2中实体关系对的结果为基础,进行实体关系的知识融合,包括:合并重复的实体关系对,对冲突的实体关系进行校验,依据其来源网站的网站世界排名和出现频次,保留网站世界排名最高的数据源中识别出的实体关系对;通过Redis数据库以Key-Value的形式保存实体和实体的属性,通过图数据库Neo4j以Node-Relation-Node的形式保存实体间的关系,两个数据库通过Redis中的键(Key)关联,形成该领域的知识图谱。所述步骤1中知识图谱为疾病知识图谱;所述疾病知识图谱的概念模型中,定义了四个实体分类,所述实体的分类包括:疾病类、症状类、器官类和常规检查类;所述疾病类的属性包括:名称,别名,定义(即描述),科室,人群,起因,症状表现,传染性,遗传性,预防和保健;所述疾病类包括“并发症”、“后遗症”、“整体-部分”的实体关系;所述症状类的属性包括:名称,别名,预防和保健,急救措施;所述器官类的属性包括:名称,别称,简介,预防和保健;所述常规检查类的属性包括:名称,别名,科室,注意事项;所述不同分类之间的关系为双向关系,包括“疾病-引起-症状”,“症状-体现-疾病”,“疾病-关联-器官”,“器官-关联-疾病”关系;所述结构化数据包括网站中的infobox,表单等,利用网页标签直接抽取领域内的实体、属性名和属性值,将实体作为候选实体保存,属性名和属性值作为候选实体的属性保存,得到实体-属性对,即实体-属性对按照(实体、属性名、属性值)三元组形式保存;所述非结构化数据中,实体关系对的结果按照(实体、关系、实体)的三元组形式保存,其中,BiLSTM模型按照关系概率排序,输出一系列关系及其概率,格式为:Noi:关系i,概率i,Noi+1:关系i+1,概率i+1……(i表示序号);选择概率最高的关系1作为实体1和实体2的关系,形成三元组(实体1,关系1,实体2);所述步骤3中对实体属性对及实体关系对进行冲突校验,即对三元组进行冲突校验,并在字符层面对校验后的三元组进行去重。所述步骤2中的BiLSTM模型经过预先训练,训练集为人工标注的至少5000条标注语料。所述结构化数据和非结构化数据利用网络定向爬虫采集,所述医疗领域网站为该领域的世界网站排名前二十的网站。所述步骤2中的训练集为人工标注达到7500条的标注语料。所述实体关系对的冲突检验转由人工进行校验。本专利技术所达到的有益效果:a)在知识层面提供有效、完备、可靠的疾病知识。帮助跨领域的使用者迅速了解并理解业务场景,如医疗APP的开发人员等。b)辅助医疗领域内的智能问答。智能问答在电销客服领域取得了一定进展,但在领域门槛高的行业,如医疗、养生保健等领域还未有相关应用。c)领域内语义搜索和查询理解。基于知识图谱的语义搜索不再从字面进行检索,而是从实体层面理解用户的检索词,从而捕捉用户输入查询的意图,更准确的返回符合用户需求的搜索结果,更进一步优化推荐机制。附图说明图1为本专利技术的方法流程简图;图2为本专利技术的示例性实施例中基于医疗领域网站的疾病知识图谱概念模型图。具体实施方式下面结合附图和示例性实施例对本专利技术作进一步的说明:本专利技术以医疗领域网站为数据源,构建了疾病知识图谱,通过领域概念模型设计,立足医学领域中疾病的特征,疾病与症状间的多重关系,设计出面向疾病的概念模型,并定义疾病类和症状类的相关属性。基于疾病知识图谱的构建分为模式层设计和数据层构建:如图2所示,知识图谱的模式层设计应围绕其应用场景,对领域内事物的特征、事物和事物间的关系抽象,获得概念模型。疾病知识图谱的概念模型中,定义了四个大类:疾病类、症状类、器官类和常规检查类,并对其不同特征以及类间的关系进行了抽象。以疾病类为例,疾病类是对“高血压”,“糖尿病”等客观疾病的抽象,其属性包括:名称,别名,定义(描述),科室,人群,起因,症状表现,传染性,遗传性,预防和保健。在关系方面,“糖尿病”、“高血压”等病症间存在“并发”,“后遗”等伴随关系。以此抽象,疾病类间存在“并发症”、“后遗症”、“整体-部分”关系,类与类之间的关系均为双向关系,故在图示中用类别名指代,如“疾病-症状”关系指代的是“疾病-引起-症状”,“症状-体现-疾病”两类关系,“疾病-器官”关系指代的是“疾病-关联-器官”,“器官-关联-疾病”两类关系,以此类推。如图1所示,基于上述定义的概念模型,利用医疗网站进行数据层的构建。步骤1:根据预设数据源采集领域实体、实体属性及语料。选取医疗领域知名度高的行业网站作为数据源,从结构化网页中抽取实体以及实体的属性数据,从非结构化网页中抽取领域相关长文本。其中实体和实体的属性将在后续步骤中经过本文档来自技高网...

【技术保护点】
1.一种基于医疗领域网站的知识图谱构建方法,其特征在于,包括以下步骤:步骤1:根据预设医疗领域的数据源采集实体、实体属性及语料;选取领域的行业网站作为数据源,从结构化网页中抽取医疗领域的实体以及实体的属性作为结构化数据,从非结构化网页中抽取医疗领域的长文本做为非结构化数据,即语料;步骤2:基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取实体;具体为,从步骤1中采集的语料中以中文单字为特征,选用word2vec模型进行训练,得到单个字符的嵌入表示(char embedding),以char embedding为特征,将包含待识别实体对的文本进行数字化表示,并输入到BiLSTM模型中进行训练识别,输出实体关系对的结果;步骤3:知识融合与图谱生成;对步骤1中获取的实体和实体的属性进行冲突校验,依据其来源网站的网站世界排名和出现频次进行知识融合;所述知识融合是指,对冲突的实体对A和实体对B,比较其来源网站的知名度,保留知名度更高网站数据,当知名度无法区分两者,或两者网站知名度相近时,比较实体对A和实体对B在语料中的频次,保留频次更高的实体对,对频次相同或接近的实体对,进行人工校验;以步骤2中实体关系对的结果为基础,进行实体关系的知识融合,包括:合并重复的实体关系对,对冲突的实体关系进行校验,依据其来源网站的网站世界排名和出现频次,保留网站世界排名最高的数据源中识别出的实体关系对;通过Redis数据库以Key‑Value的形式保存实体和实体的属性,通过图数据库Neo4j以Node‑Relation‑Node的形式保存实体间的关系,两个数据库通过Redis中的键(Key)关联,形成该领域的知识图谱。...

【技术特征摘要】
1.一种基于医疗领域网站的知识图谱构建方法,其特征在于,包括以下步骤:步骤1:根据预设医疗领域的数据源采集实体、实体属性及语料;选取领域的行业网站作为数据源,从结构化网页中抽取医疗领域的实体以及实体的属性作为结构化数据,从非结构化网页中抽取医疗领域的长文本做为非结构化数据,即语料;步骤2:基于BiLSTM(双向长短期记忆网络)模型的实体间的关系抽取实体;具体为,从步骤1中采集的语料中以中文单字为特征,选用word2vec模型进行训练,得到单个字符的嵌入表示(charembedding),以charembedding为特征,将包含待识别实体对的文本进行数字化表示,并输入到BiLSTM模型中进行训练识别,输出实体关系对的结果;步骤3:知识融合与图谱生成;对步骤1中获取的实体和实体的属性进行冲突校验,依据其来源网站的网站世界排名和出现频次进行知识融合;所述知识融合是指,对冲突的实体对A和实体对B,比较其来源网站的知名度,保留知名度更高网站数据,当知名度无法区分两者,或两者网站知名度相近时,比较实体对A和实体对B在语料中的频次,保留频次更高的实体对,对频次相同或接近的实体对,进行人工校验;以步骤2中实体关系对的结果为基础,进行实体关系的知识融合,包括:合并重复的实体关系对,对冲突的实体关系进行校验,依据其来源网站的网站世界排名和出现频次,保留网站世界排名最高的数据源中识别出的实体关系对;通过Redis数据库以Key-Value的形式保存实体和实体的属性,通过图数据库Neo4j以Node-Relation-Node的形式保存实体间的关系,两个数据库通过Redis中的键(Key)关联,形成该领域的知识图谱。2.如权利要求1所述的一种基于医疗领域网站的知识图谱构建方法,其特征在于:所述步骤1中知识图谱为疾病知识图谱;所述疾病知识图谱的概念模型中,定义了四个实体分类,所述实体的分类包括:疾病类、症状类、器官类和常规检查类;所述疾病类的属性包括:名称,别名,定...

【专利技术属性】
技术研发人员:王颖王婷
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1