一种基于医学文献数据库的组合药物识别与排序方法技术

技术编号：15437409 阅读：153 留言：0更新日期：2017-05-26 03:29

本发明专利技术公开了一种基于医学文献数据库的组合药物识别与排序方法，首先抓取公开的医学文献数据库上的医学文献摘要并识别其中的药物实体；然后使用文本挖掘中的抽取特征的方法抽取特征，使用机器学习中的分类算法对药物进行分类，分类算法的参数使用优化算法进行优化；最后使用Medrank进行组合药物排序，得到关于某种疾病的组合用药推荐方案。本发明专利技术提供的组合药物识别与排序方法，针对海量的以及每年以指数级增长的医学文献，医学研究者无法阅读并发现其中的规律这一难题，利用文本挖掘技术和机器学习相关知识解决这一问题，可快速了解到文献中治疗某种疾病的组合药物的排序结果以及历年的变化趋势，减少医学研究者阅读海量文献的压力。

Combination drug recognition and sorting method based on medical literature database

The invention discloses a drug combination method for identifying and sorting the medical literature database based on medical literature Abstract medical literature database first, open the drug and identify the entity; and then use the feature extraction method of feature extraction in text mining, classification of drug use classification algorithms in machine learning, classification parameters the use of the algorithm optimization algorithm is optimized; finally the use of Medrank combination drug sort, combined medication about a disease recommendation. A combination of drug identification and ranking method provided by the invention, for the mass and every year the exponential growth of the medical literature, medical researchers cannot read and find the problem of the law, using text mining techniques and machine learning related knowledge to solve this problem, can quickly learn to sort the combination of drugs in some disease treatment literature in the past, change trend, massive reading less literature medical researchers pressure.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于医学文献数据库的组合药物识别与排序方法
本专利技术涉及计算机技术在医学临床
，特别是一种基于医学文献数据库的组合药物识别与排序方法。
技术介绍
众所周知，医学文献已经成为医学研究者和工作者重要的信息来源，但在信息爆炸的当今社会，医学信息也在大量爆发。据统计，医学信息资源占据约30％以上互联网信息资源，医学文献的数量正以惊人的速度增长，全球医药类期刊近3万种，每年发表论文200多万篇并且以每年7％速度递增，医学文献的日益更新成为医学研究者和工作者的一大挑战。临床医生平均每天必须阅读大量的专业文献，才可能跟上现代医学发展的速度，这对医生会造成很大的工作压力，也没有办法全方位地评价所有相关的文献。所以如何从医学文献数据库中学习到先进的医学知识，获得针对某种疾病的最佳治疗方案以辅助医生进行诊断成为急需解决的问题。目前，针对从医学文献中通过计算机相关技术获得针对某种疾病的治疗药物这一问题，已经存在的排序方法有MedRank排序方法。基于医学文献数据库的MedRank方法做的工作是从MEDLINE数据库中提取数据构建了一个医学信息网，然后应用net-clus中排名的方法解决“给定疾病名称，寻找最有效的K种方法”。该方法首先给定疾病，从medline(Medlarsonline医学文献联机数据库)中提取信息构建疾病的星型网络，然后经过medrank算法选出top-k最佳治疗方案，最后利用专家评审评估实验结果。虽然该方法提出了如何科学地对医学文献进行排序的方法，但存在一个问题,MedRank实际提供的是针对某一种疾病的所有涉及的单药的排名，可是现在很多文献提...
一种基于医学文献数据库的组合药物识别与排序方法

【技术保护点】
一种基于医学文献数据库的组合药物识别与排序方法，其特征在于：包括以下步骤：S1：在医学文献数据库中抓取出包含指定疾病的文章信息，利用药物实体识别出含多种药物的文献信息；将文章中的摘要信息和标题信息作为数据集；S2：将数据集中的一部分作为训练集和测试集进行人工标注，标记为药物为组合关系的文献和非组合关系的文献；S3：使用文本挖掘中的特征选择方法CHI卡方统计法抽取分类关键词，并使用TF/IDF对每一个关键词进行加权作为特征，选择的分类特征包括分类关键词，药物是否出现在同一句话中，词特征、词性特征、逻辑特征以及依存句法特征，将训练集和测试集中的特征进行抽取；S4：使用支持向量机训练分类模型，同时使用遗传优化算法进行优化参数；S5：得到分类的含多种药物和药物之间存在组合关系的文献，将文献作为medrank的输入，使用medrank进行排序得到推荐结果。

【技术特征摘要】
1.一种基于医学文献数据库的组合药物识别与排序方法，其特征在于：包括以下步骤：S1：在医学文献数据库中抓取出包含指定疾病的文章信息，利用药物实体识别出含多种药物的文献信息；将文章中的摘要信息和标题信息作为数据集；S2：将数据集中的一部分作为训练集和测试集进行人工标注，标记为药物为组合关系的文献和非组合关系的文献；S3：使用文本挖掘中的特征选择方法CHI卡方统计法抽取分类关键词，并使用TF/IDF对每一个关键词进行加权作为特征，选择的分类特征包括分类关键词，药物是否出现在同一句话中，词特征、词性特征、逻辑特征以及依存句法特征，将训练集和测试集中的特征进行抽取；S4：使用支持向量机训练分类模型，同时使用遗传优化算法进行优化参数；S5：得到分类的含多种药物和药物之间存在组合关系的文献，将文献作为medrank的输入，使用medrank进行排序得到推荐结果。2.如权利要求1所述的基于医学文献数据库的组合药物识别与排序方法，其特征在于：所述抽取包含指定疾病的文章并识别出包含多种药物的文献的具体步骤如下：S11：MEDLINE文献数据库提供的mesh词是美国国立医学图书馆编制的权威性主题词表，某篇文献的mesh词可以作为该文献的关键词；针对某一种疾病，在MEDLINE文献数据库抽取出mesh词包含这种疾病的文献信息。得到摘要信息和文献标题信息。S12：针对上一步得到的结果，借助已有的药物实体识别出摘要中的药物，将摘要中含多个药物的文章抽取出来作为数据集。3.如权利要求1所述的基于医学文献数据库的组合药物识别与排序方法，其特征在于：所述抽取分类关键词的具体步骤如下：S31：将得到的数据集中的摘要信息和标题信息进行人工标记，标记为药物为组合关系的文献和药物为非组合关系的文献；S32：将文本使用向量空间模型进行表示，给定一个文档D(t1,ω1；t2,ω2；...；tn,ωn)，D符合两个标准：1)各特征项tk(1≤k≤n)互异；2)各个特征项tk无先后顺序关系；S33：使用文本挖掘中文本特征抽取方法χ2统计法和阈值进行抽取分类关键词；按照以下公式计算得特征项的CHI值：

【专利技术属性】
技术研发人员：李学明，张琦，
申请(专利权)人：重庆大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人