当前位置: 首页 > 专利查询>谭红春专利>正文

一种中医学文献分析方法技术

技术编号:15542751 阅读:72 留言:0更新日期:2017-06-05 11:33
本发明专利技术提供了一种中医学文献分析方法方法,其包括步骤:获取中医医学文献基础数据库;获取医学关键词并保存成特定的数据格式作为关键信息进行存储;然后对下载的非结构化的文本数据进行关键信息提取,建立中医医学文献的关键信息的编码表;将核心数据对应的所有关键词划分到若干核心数据群中;同时将非核心数据对应的所有关键词划分到若干非核心数据群中;获取到中医文献关键词组合,根据中医文献关键词组合作为检索关键词获取到相应的中医文献作为中医医学文献,将中医医学文献进行存储,并将所述中医文献关键词组合以及时间段作为所述中医医学文献存储标识。本发明专利技术实现了高效与准确的获取中医学文献数据,完成了中医医学文献的精确分类存储。

A method of document analysis in traditional Chinese Medicine

The invention provides a traditional Chinese medicine literature analysis method, which comprises the following steps: acquiring Chinese medical literature database; obtaining medical keywords and saved into a specific data format as the key information is stored; then the unstructured text data downloaded into key information extraction, encoding the key information for Establishing TCM medical literature the classification of all keywords; the core data corresponding to a number of core data group; while the non core data corresponding to all the keywords into several non core data base; access to Chinese literature keyword combination, according to TCM keyword combination as search keywords to obtain the corresponding Chinese literature as a traditional Chinese medical literature, Chinese medicine document storage, and the traditional Chinese medicine literature keyword combination and the time interval as the Medical literature storage identifier. The invention realizes the efficient and accurate access to the documents and data of traditional Chinese medicine, and achieves the accurate classification and storage of the medical documents of traditional Chinese medicine.

【技术实现步骤摘要】
一种中医学文献分析方法
本专利技术涉及到文献数据处理
,特别是一种中医学文献分析方法。
技术介绍
中医学是当今中国医药卫生事业中独具特色和优势的重要组成部分,对于丰富世界医学宝库、保护人类健康,产生积极的作用。新形势下,我国中医学学领域的相关研究在注重继承经典的同时,同样注重与西方医学、药学、信息学、生物学等领域的交叉融合,形成新的学科增长点,在学术研究领域则表现为研究主题跨双学科或多学科的学术论文的发表。在医学研究领域,领域内专家、学者通常基于定性的研究方法,在大量阅读文献的基础上,依据其研究经验及积累主观性地识别某领域或学科的研究热点,形成综述类文献或报告,以供借鉴。现有技术目前都是基于人工分析整理中医学文献,还没有一种科学化基于大数据分析的文献分类方式。
技术实现思路
为解决上述技术问题,本专利技术提供了一种中医学文献分析方法,其包括以下步骤:S1:以中医学为关键词获取原始文献数据库,提取所述原始文献数据库中每个文献的发表时间信息,将所述原始文献数据库按照多个时间段进行归类;S2:获取所述各时间段内的原始文献的原始关键词,所述原始关键词为原始文献中出现频次超过设定阈值的词,对所述原始关键词进行数据清洗得到医学关键词;S3:然后将所述医学关键词保存成特定的数据格式作为关键信息进行存储,建立中医医学文献的关键信息的编码表,所述关键信息分别对应一个二进制编码;S4:所述关键信息包括核心数据和非核心数据两种类型,提取出来的数据,首先存入相应数据库,作为下一步数据处理的基础数据,然后导人SQL中进行下一步的挖掘分析;所述核心数据为下载的文本数据中超过设定阈值频率的关键词,所述非核心数据为下载的文本数据中出现过至少一次并低于设定阈值的关键词;核心数据对应的关键词i的数据模式可以表示为一个关系表Hi(B1,B2,...,Bmi),其中B为该关键词的属性值,各关键词的属性值根据关键词所在中医的具体领域进行预先设定;关键词对应的数据库{D1,D2,...,Dni}的数据模式都可以对应到Hi上;其中非核心数据对应的关键词j的数据模式可以表示为一个关系表Hj(B1,B2,...,Bmj),其中B为该关键词的属性,关键词对应的数据库{D1,D2,...,Dnj}的数据模式都可以对应到Hj上;具体各关键词的关联度量化值为K(Bmi,Dni)=ρdist(Bmi,Dni)-1,K(Bmj,Dnj)=ρdist(Bmj,Dnj)-1,dist(Bmi,Dni)为Bmi、Dni之间的欧式距离,dist(Bmj,Dnj)为Bmj、Dnj之间的欧式距离,ρ>1为伸缩因子;其中K(Bmi,Dni)、K(Bmj,Dnj)表示核心数据对应的关键词i、非核心数据对应的关键词j的关联度量化值,将关联度量化值在给定阈值范围内的所有关键词作为一个关键词数据群,将核心数据对应的所有关键词划分到若干核心数据群中;同时将非核心数据对应的所有关键词划分到若干非核心数据群中;S5:对所述核心数据群中对应的关键词与所述非核心数据群中对应的关键词进行随机两两组合,获取到中医文献关键词组合,并根据所述中医文献关键词组合作为检索关键词获取到相应的中医文献作为中医医学文献,将所述中医医学文献进行存储,并将所述中医文献关键词组合以及时间段作为所述中医医学文献存储标识。较佳地,对所述原始关键词进行数据清洗的具体过程为:含义相同或者相似关键词进行统一,并将无实际分析意义关键词的剔除。较佳地,预设有医学关键词词库,所述医学关键词词库中包括多个子数据库,所述个子数据库中存储有至少一个医学关键词,所述含义相同或相似关键词预存在同一个子数据库中的关键词,并可以增加或删除该子数据库中的关键词。较佳地,所述无实际分析意义关键词为未出现在所述医学关键词词库中的原始关键词。本专利技术具有以下有益效果:本专利技术提供的中医学文献分析方法方法基于中医学数据库关键词检索,并通过对检索到的文献进行数据提取,对获取到的关键信息进行数据挖掘分析,得到关键词数据群,并根据关键词数据群中的关键词进行组合进行检索得到相关中医医学文献,并将所述中医文献关键词组合作为所述中医医学文献存储标识。本专利技术实现了高效与准确的获取中医学文献数据,完成了中医医学文献的精确分类存储。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。具体实施方式下面将结合本专利技术实施例对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种中医学文献分析方法,其包括以下步骤:S1:以中医学为关键词获取原始文献数据库,提取所述原始文献数据库中每个文献的发表时间信息,将所述原始文献数据库按照多个时间段进行归类;S2:获取所述各时间段内的原始文献的原始关键词,所述原始关键词为原始文献中出现频次超过设定阈值的词,对所述原始关键词进行数据清洗得到医学关键词;S3:然后将所述医学关键词保存成特定的数据格式作为关键信息进行存储,建立中医医学文献的关键信息的编码表,所述关键信息分别对应一个二进制编码;S4:所述关键信息包括核心数据和非核心数据两种类型,提取出来的数据,首先存入相应数据库,作为下一步数据处理的基础数据,然后导人SQL中进行下一步的挖掘分析;所述核心数据为下载的文本数据中超过设定阈值频率的关键词,所述非核心数据为下载的文本数据中出现过至少一次并低于设定阈值的关键词;核心数据对应的关键词i的数据模式可以表示为一个关系表Hi(B1,B2,...,Bmi),其中B为该关键词的属性值,各关键词的属性值根据关键词所在中医的具体领域进行预先设定;关键词对应的数据库{D1,D2,...,Dni}的数据模式都可以对应到Hi上;其中非核心数据对应的关键词j的数据模式可以表示为一个关系表Hj(B1,B2,...,Bmj),其中B为该关键词的属性,关键词对应的数据库{D1,D2,...,Dnj}的数据模式都可以对应到Hj上;具体各关键词的关联度量化值为K(Bmi,Dni)=ρdist(Bmi,Dni)-1,K(Bmj,Dnj)=ρdist(Bmj,Dnj)-1,dist(Bmi,Dni)为Bmi、Dni之间的欧式距离,dist(Bmj,Dnj)为Bmj、Dnj之间的欧式距离,ρ>1为伸缩因子;其中K(Bmi,Dni)、K(Bmj,Dnj)表示核心数据对应的关键词i、非核心数据对应的关键词j的关联度量化值,将关联度量化值在给定阈值范围内的所有关键词作为一个关键词数据群,将核心数据对应的所有关键词划分到若干核心数据群中;同时将非核心数据对应的所有关键词划分到若干非核心数据群中;S5:对所述核心数据群中对应的关键词与所述非核心数据群中对应的关键词进行随机两两组合,获取到中医文献关键词组合,并根据所述中医文献关键词组合作为检索关键词获取到相应的中医文献作为中医医学文献,将所述中医医学文献进行存储,并将所述中医文献关键词组合以及时间段作为所述中医医学文献存储标识。本实施例中,对所述原始关键词进行数据清洗的具体过程为:含义相同或者相似关键词进行统一,并将无实际分析意义关键词的剔本文档来自技高网...

【技术保护点】
一种中医学文献分析方法,其特征在于,包括以下步骤:S1:以中医学为关键词获取原始文献数据库,提取所述原始文献数据库中每个文献的发表时间信息,将所述原始文献数据库按照多个时间段进行归类;S2:获取所述各时间段内的原始文献的原始关键词,所述原始关键词为原始文献中出现频次超过设定阈值的词,对所述原始关键词进行数据清洗得到医学关键词;S3:然后将所述医学关键词保存成特定的数据格式作为关键信息进行存储,建立中医医学文献的关键信息的编码表,所述关键信息分别对应一个二进制编码;S4:所述关键信息包括核心数据和非核心数据两种类型,提取出来的数据,首先存入相应数据库,作为下一步数据处理的基础数据,然后导人SQL中进行下一步的挖掘分析;所述核心数据为下载的文本数据中超过设定阈值频率的关键词,所述非核心数据为下载的文本数据中出现过至少一次并低于设定阈值的关键词;核心数据对应的关键词i的数据模式可以表示为一个关系表Hi(B1,B2,...,Bmi),其中B为该关键词的属性值,各关键词的属性值根据关键词所在中医的具体领域进行预先设定;关键词对应的数据库{D1,D2,...,Dni}的数据模式都可以对应到Hi上;其中非核心数据对应的关键词j的数据模式可以表示为一个关系表Hj(B1,B2,...,Bmj),其中B为该关键词的属性,关键词对应的数据库{D1,D2,...,Dnj}的数据模式都可以对应到Hj上;具体各关键词的关联度量化值为K(Bmi,Dni)=ρ...

【技术特征摘要】
1.一种中医学文献分析方法,其特征在于,包括以下步骤:S1:以中医学为关键词获取原始文献数据库,提取所述原始文献数据库中每个文献的发表时间信息,将所述原始文献数据库按照多个时间段进行归类;S2:获取所述各时间段内的原始文献的原始关键词,所述原始关键词为原始文献中出现频次超过设定阈值的词,对所述原始关键词进行数据清洗得到医学关键词;S3:然后将所述医学关键词保存成特定的数据格式作为关键信息进行存储,建立中医医学文献的关键信息的编码表,所述关键信息分别对应一个二进制编码;S4:所述关键信息包括核心数据和非核心数据两种类型,提取出来的数据,首先存入相应数据库,作为下一步数据处理的基础数据,然后导人SQL中进行下一步的挖掘分析;所述核心数据为下载的文本数据中超过设定阈值频率的关键词,所述非核心数据为下载的文本数据中出现过至少一次并低于设定阈值的关键词;核心数据对应的关键词i的数据模式可以表示为一个关系表Hi(B1,B2,...,Bmi),其中B为该关键词的属性值,各关键词的属性值根据关键词所在中医的具体领域进行预先设定;关键词对应的数据库{D1,D2,...,Dni}的数据模式都可以对应到Hi上;其中非核心数据对应的关键词j的数据模式可以表示为一个关系表Hj(B1,B2,...,Bmj),其中B为该关键词的属性,关键词对应的数据库{D1,D2,...,Dnj}的数据模式都可以对应到Hj上;具体各关键词的关联度量化值为K(Bmi,Dni)=ρdist(Bmi,Dni)-1,K(...

【专利技术属性】
技术研发人员:谭红春阚红星耿英保谷宗运
申请(专利权)人:谭红春
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1