当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于医学文献数据库的组合药物识别与排序方法技术

技术编号:15437409 阅读:134 留言:0更新日期:2017-05-26 03:29
本发明专利技术公开了一种基于医学文献数据库的组合药物识别与排序方法,首先抓取公开的医学文献数据库上的医学文献摘要并识别其中的药物实体;然后使用文本挖掘中的抽取特征的方法抽取特征,使用机器学习中的分类算法对药物进行分类,分类算法的参数使用优化算法进行优化;最后使用Medrank进行组合药物排序,得到关于某种疾病的组合用药推荐方案。本发明专利技术提供的组合药物识别与排序方法,针对海量的以及每年以指数级增长的医学文献,医学研究者无法阅读并发现其中的规律这一难题,利用文本挖掘技术和机器学习相关知识解决这一问题,可快速了解到文献中治疗某种疾病的组合药物的排序结果以及历年的变化趋势,减少医学研究者阅读海量文献的压力。

Combination drug recognition and sorting method based on medical literature database

The invention discloses a drug combination method for identifying and sorting the medical literature database based on medical literature Abstract medical literature database first, open the drug and identify the entity; and then use the feature extraction method of feature extraction in text mining, classification of drug use classification algorithms in machine learning, classification parameters the use of the algorithm optimization algorithm is optimized; finally the use of Medrank combination drug sort, combined medication about a disease recommendation. A combination of drug identification and ranking method provided by the invention, for the mass and every year the exponential growth of the medical literature, medical researchers cannot read and find the problem of the law, using text mining techniques and machine learning related knowledge to solve this problem, can quickly learn to sort the combination of drugs in some disease treatment literature in the past, change trend, massive reading less literature medical researchers pressure.

【技术实现步骤摘要】
一种基于医学文献数据库的组合药物识别与排序方法
本专利技术涉及计算机技术在医学临床
,特别是一种基于医学文献数据库的组合药物识别与排序方法。
技术介绍
众所周知,医学文献已经成为医学研究者和工作者重要的信息来源,但在信息爆炸的当今社会,医学信息也在大量爆发。据统计,医学信息资源占据约30%以上互联网信息资源,医学文献的数量正以惊人的速度增长,全球医药类期刊近3万种,每年发表论文200多万篇并且以每年7%速度递增,医学文献的日益更新成为医学研究者和工作者的一大挑战。临床医生平均每天必须阅读大量的专业文献,才可能跟上现代医学发展的速度,这对医生会造成很大的工作压力,也没有办法全方位地评价所有相关的文献。所以如何从医学文献数据库中学习到先进的医学知识,获得针对某种疾病的最佳治疗方案以辅助医生进行诊断成为急需解决的问题。目前,针对从医学文献中通过计算机相关技术获得针对某种疾病的治疗药物这一问题,已经存在的排序方法有MedRank排序方法。基于医学文献数据库的MedRank方法做的工作是从MEDLINE数据库中提取数据构建了一个医学信息网,然后应用net-clus中排名的方法解决“给定疾病名称,寻找最有效的K种方法”。该方法首先给定疾病,从medline(Medlarsonline医学文献联机数据库)中提取信息构建疾病的星型网络,然后经过medrank算法选出top-k最佳治疗方案,最后利用专家评审评估实验结果。虽然该方法提出了如何科学地对医学文献进行排序的方法,但存在一个问题,MedRank实际提供的是针对某一种疾病的所有涉及的单药的排名,可是现在很多文献提出的针对某一种疾病的治疗方案涉及到多种药物组合,在MedRank中针对这样的文献,就会将文献中提到的多种药物的关系统一定义为并列关系,即每一种药物都对该病有治疗的效果,这对文献想要表达的意思进行了曲解,对结果也造成一定的误差。
技术实现思路
本专利技术的目的是提出一种基于医学文献数据库的组合药物识别与排序方法。本专利技术的目的是通过以下技术方案来实现的:本专利技术提供的基于医学文献数据库的组合药物识别与排序方法,包括以下步骤:S1:在医学文献数据库中抓取出包含指定疾病的文章信息,利用药物实体识别出含多种药物的文献信息;将文章中的摘要信息和标题信息作为数据集;S2:将数据集中的一部分作为训练集和测试集进行人工标注,标记为药物为组合关系的文献和非组合关系的文献;S3:使用文本挖掘中的特征选择方法CHI卡方统计法抽取分类关键词,并使用TF/IDF对每一个关键词进行加权作为特征,选择的分类特征包括分类关键词,药物是否出现在同一句话中,词特征、词性特征、逻辑特征以及依存句法特征,将训练集和测试集中的特征进行抽取;S4:使用支持向量机训练分类模型,同时使用遗传优化算法进行优化参数;S5:得到分类的含多种药物和药物之间存在组合关系的文献,将文献作为medrank的输入,使用medrank进行排序得到推荐结果。进一步,所述抽取包含指定疾病的文章并识别出包含多种药物的文献的具体步骤如下:S11:MEDLINE文献数据库提供的mesh词是美国国立医学图书馆编制的权威性主题词表,某篇文献的mesh词可以作为该文献的关键词;针对某一种疾病,在MEDLINE文献数据库抽取出mesh词包含这种疾病的文献信息。得到摘要信息和文献标题信息。S12:针对上一步得到的结果,借助已有的药物实体识别出摘要中的药物,将摘要中含多个药物的文章抽取出来作为数据集。进一步,所述抽取分类关键词的具体步骤如下:S31:将得到的数据集中的摘要信息和标题信息进行人工标记,标记为药物为组合关系的文献和药物为非组合关系的文献;S32:将文本使用向量空间模型进行表示,给定一个文档D(t1,ω1;t2,ω2;...;tn,ωn),D符合两个标准:1)各特征项tk(1≤k≤n)互异;2)各个特征项tk无先后顺序关系;S33:使用文本挖掘中文本特征抽取方法χ2统计法和阈值进行抽取分类关键词;按照以下公式计算得特征项的CHI值:其中,N表示训练集的总数,A表示属于Cj类且包含ti的文档频数,B表示不属于Cj类且包含ti的文档频数,C表示属于Cj类但不包含ti的文档频数,D表示不属于Cj类且不包含ti的文档频数;CHI为特征项ti对Cj的值;再根据阈值挑选出符合要求的特征项作为分类关键词;S34:使用TF-IDF计算出每一个被选中的关键词的权重,权重公式为:其中,ωij表示TF-IDF值;tfij表示特征项在文档中出现的频数;S35:抽取分类关键词的特征。进一步,所述抽取分类关键词的特征的具体步骤如下:S351:将训练数据集中的摘要进行词性标注、语义处理和句法分析;S352:抽取分类特征,按照以下方式判断两种药物是否为组合关系:1)关键词特征:按照以下公式处理关键词特征:Fk=ωaKa+ωtKt;其中,ka为摘要关键词,kt为标题关键词;d1为一种药物;d2为另一种药物;2)词特征:包含d1左边的单词,d2右边的单词,d1与d2中间的单词;3)词性特征:将第二项词特征集中的每一个词的词性作为词特征的补充;4)逻辑特征:包含药物之间的距离,每一个药物离它关键词的最短距离,药物之间其他药物的个数,药物之间的标点符号以及动词的个数;5)依存句法分析特征:进一步,所述分类模型按照以下方式进行建立:S41:将所有特征进行量化和归一化预处理;S42:使用支持向量机建立分类模型,选用RBF作为核函数,并使用遗传算法、粒子群算法对带有的参数c和g进行寻优;进一步,所述medrank进行排序的具体步骤如下:S51:使用分类模型判断所有的文献中的药物关系,并将药物关系为组合的提取出来作为数据集;S52:将得到的数据集进行预处理,并将medrank中输入时需要的药物由单个药物换成数据集中的组合药物;S53:使用medrank进行排序,得到top10的结果作为推荐结果反馈给用户。由于采用了上述技术方案,本专利技术具有如下的优点:本专利技术公开了一种基于医学文献数据库的组合药物识别与排序方法,首先抓取公开的医学文献数据库(例如medline或pubMed)上的医学文献摘要,并识别其中的药物实体;然后使用文本挖掘中的抽取特征的方法抽取特征,使用机器学习中的分类算法对文本中提到的药物进行分类,分类为组合关系或非组合关系,分类算法的参数使用优化算法进行优化;最后使用Medrank进行组合药物的排序,得到关于某种疾病的组合用药的推荐方案。本专利技术提供的基于医学文献数据库的组合药物识别与排序方法,针对海量的以及每年以指数级增长的医学文献,医学研究者无法阅读并发现其中的规律这一难题,利用文本挖掘技术判别文献中提及的药物之间的关系,使用medRank进行排序,让医学工作者可以快速了解到文献中治疗某种疾病的组合药物的排序结果以及历年的变化趋势,使用计算机进行统一阅读文章,减少医学研究者阅读海量文献的压力。本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。附图说明本专利技术的附图说明如下。图1为本专利技术的基本文档来自技高网
...
一种基于医学文献数据库的组合药物识别与排序方法

【技术保护点】
一种基于医学文献数据库的组合药物识别与排序方法,其特征在于:包括以下步骤:S1:在医学文献数据库中抓取出包含指定疾病的文章信息,利用药物实体识别出含多种药物的文献信息;将文章中的摘要信息和标题信息作为数据集;S2:将数据集中的一部分作为训练集和测试集进行人工标注,标记为药物为组合关系的文献和非组合关系的文献;S3:使用文本挖掘中的特征选择方法CHI卡方统计法抽取分类关键词,并使用TF/IDF对每一个关键词进行加权作为特征,选择的分类特征包括分类关键词,药物是否出现在同一句话中,词特征、词性特征、逻辑特征以及依存句法特征,将训练集和测试集中的特征进行抽取;S4:使用支持向量机训练分类模型,同时使用遗传优化算法进行优化参数;S5:得到分类的含多种药物和药物之间存在组合关系的文献,将文献作为medrank的输入,使用medrank进行排序得到推荐结果。

【技术特征摘要】
1.一种基于医学文献数据库的组合药物识别与排序方法,其特征在于:包括以下步骤:S1:在医学文献数据库中抓取出包含指定疾病的文章信息,利用药物实体识别出含多种药物的文献信息;将文章中的摘要信息和标题信息作为数据集;S2:将数据集中的一部分作为训练集和测试集进行人工标注,标记为药物为组合关系的文献和非组合关系的文献;S3:使用文本挖掘中的特征选择方法CHI卡方统计法抽取分类关键词,并使用TF/IDF对每一个关键词进行加权作为特征,选择的分类特征包括分类关键词,药物是否出现在同一句话中,词特征、词性特征、逻辑特征以及依存句法特征,将训练集和测试集中的特征进行抽取;S4:使用支持向量机训练分类模型,同时使用遗传优化算法进行优化参数;S5:得到分类的含多种药物和药物之间存在组合关系的文献,将文献作为medrank的输入,使用medrank进行排序得到推荐结果。2.如权利要求1所述的基于医学文献数据库的组合药物识别与排序方法,其特征在于:所述抽取包含指定疾病的文章并识别出包含多种药物的文献的具体步骤如下:S11:MEDLINE文献数据库提供的mesh词是美国国立医学图书馆编制的权威性主题词表,某篇文献的mesh词可以作为该文献的关键词;针对某一种疾病,在MEDLINE文献数据库抽取出mesh词包含这种疾病的文献信息。得到摘要信息和文献标题信息。S12:针对上一步得到的结果,借助已有的药物实体识别出摘要中的药物,将摘要中含多个药物的文章抽取出来作为数据集。3.如权利要求1所述的基于医学文献数据库的组合药物识别与排序方法,其特征在于:所述抽取分类关键词的具体步骤如下:S31:将得到的数据集中的摘要信息和标题信息进行人工标记,标记为药物为组合关系的文献和药物为非组合关系的文献;S32:将文本使用向量空间模型进行表示,给定一个文档D(t1,ω1;t2,ω2;...;tn,ωn),D符合两个标准:1)各特征项tk(1≤k≤n)互异;2)各个特征项tk无先后顺序关系;S33:使用文本挖掘中文本特征抽取方法χ2统计法和阈值进行抽取分类关键词;按照以下公式计算得特征项的CHI值:

【专利技术属性】
技术研发人员:李学明张琦
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1