【技术实现步骤摘要】
基于医疗文本大数据的情绪性心脏病疾病关系分析系统及处理方法
[0001]本专利技术涉及文本处理和人工智能生物信息学领域,是一种基于医疗文本大数据的情绪性心脏病疾病关系分析系统及处理方法。
技术介绍
[0002]疾病关系分析是医疗文本数据处理中非常重要的一种计算方法,对包含疾病症状等属性信息的文本进行处理,分析出不同疾病之间的相关关系。
[0003]情绪性心脏病是心血管疾病中的一种,在发育时期,由于情绪长期处于悲观消极的状态而影响一些维持心脏功能平衡的物质和微量元素吸收,进而造成心脏及大血管形成异常,或是出生后应自动关闭的通道未能闭合,造成的心脏病种类成为情绪性心脏病。情绪性心脏病的诱发原因复杂,治疗药物种类繁多,患病病人多数伴随有严重的心理疾病,心血管疾病与心理疾病药物的联合使用原则复杂多样。
[0004]目前,针对疾病的关系分析方法中,疾病实体的识别随着领域内新术语的快速增加,依靠已有的文本语料难以覆盖到新出现的实体名称,并且部分药物的命名十分的复杂且命名长度长,传统方法识别精准度不高。疾病关系分析旨在处理医疗文本包括文献和电子病历等,计算医疗实体之间存在的关系,如药物交互关系、疾病之间的并发关系等,但由于医疗领域知识的丰富性和复杂性,传统方法无法充分的表示医疗文本中的实体,进而不足以支撑后续计算疾病相关实体之间存在的关系。
技术实现思路
[0005]本专利技术的目的在于,从医疗文本数据中提取出情绪性心脏病相关的实体,包含有疾病症状、药物名称,同时计算实体之间的关系,提出一种基于医疗 ...
【技术保护点】
【技术特征摘要】
1.一种基于医疗文本大数据的情绪性心脏病疾病关系分析系统,其特征是,所述系统包括:数据采集及数据存储模块、医疗领域高质量语料库构建模块、疾病实体识别模块以及疾病关系抽取和分析模块依次连接,其中,所述数据采集及数据存储模块,用于医疗文本数据采集分类和预处理,构建医疗文本数据库;所述医疗领域高质量语料库构建模块,基于数据库中的原始文本数据,依据医疗语料短语词汇的语义词频特征,将相关疾病的短语词汇挖掘出来构建语料库;所述疾病实体识别模块,以医疗领域语料库为基础,将数据库医疗文本中需要的疾病相关症状药物病因实体基于规则匹配进行识别和标注,并对相近概念和同类概念的不同实体进行归一处理,对相关实体准确识别;所述疾病关系抽取和分析模块,依据文本中标注出的实体之间存在的位置关系,通过填充上下文语义,对疾病症状、治疗药物、病因因素之间的关系进行准确抽取。2.根据权利要求1所述的基于医疗文本大数据的情绪性心脏病疾病关系分析系统,其特征是,所述的数据采集及数据存储模块包括:数据获取装置和数据预处理装置。3.根据权利要求1所述的基于医疗文本大数据的情绪性心脏病疾病关系分析系统,其特征是,所述的医疗领域高质量语料提取构建模块包括:医疗语料评价装置、候选语料挖掘装置和高质量语料挖掘装置。4.根据权利要求1所述的基于医疗文本大数据的情绪性心脏病疾病关系分析系统,其特征是,所述的疾病实体识别模块包括:实体库构建装置、规则匹配实体装置和后处理装置。5.一种基于医疗文本大数据的情绪性心脏病疾病关系分析处理方法,其特征是,所述方法包括:1)采用数据采集及数据存储模块的数据采集装置,从权威医学文献网站中获取疾病相关的临床文献及相关临床电子病历文档T,并进行存储;采用数据预处理装置将存储的文本文件进行格式转换为T',便于进行文本处理分析;2)采用医疗领域高质量语料提取构建模块的医疗语料评价装置,将文本T
′
拆分为词汇组合序列X={x1,x2,x3,
…
,x
n
},其中x
i
为文本中第i个词汇,设关键词和短语的频率特征α、组合合理性β、领域专业性γ、完整性δ作为关键词短语的特征,α用词汇在文本中出现的频数进行量化,β使用词汇与前后词汇组合的点互信息值量化,γ的计算方法为γ=TFIDF(x),TFIDF为词汇出现的逆文档频率,δ的计算方法为δ=P(x
i
,x
i+1
,
…
),x
i
为文档中的词汇,P(x
i
,x
i+1
,
…
)为词汇x
i
与后续词汇组成组合的概率;采用候选语料挖掘装置基于频率特征α和n
‑
gram模型的组合,挖掘出文本中频繁出现的短语关键词,短语关键词包含两类,一类是单独词汇,另一类是多个词汇组成的短语,第一类使用字典树进行检查筛选,第二类多词短语应用组合合理性β筛选,即使用词汇组合的点互信息验证组合的合理性;采用高质量语料挖掘装置,根据每个特征对语料质量的贡献来得到对应的权重,考虑到特征的相互作用和特征赘余,引入惩罚因子,设c
i
,c
j
∈{α,β,γ,δ}为短语特征,为对应特征c
i
,c
j
的标准差,惩罚因子ρ的计算公式为:cov(c
i
,c
j
)为c
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。