基于复杂网络模型并行化PageRank算法的核心药物挖掘方法技术

技术编号：7843675 阅读：287 留言：0更新日期：2012-10-13 02:05

本发明专利技术的基于复杂网络模型并行化PageRank算法的核心药物挖掘方法包括如下步骤：1）组网阶段：a)预处理生成中药数据集，格式化为文本数据；b)将初始文本数据部署至Hadoop平台；c)并行化组建中药药物网络TCM；d)结束。2）挖掘阶段：a)获取步骤1-c处理生成的中药药物网络文本文件；b)将药物网络文本文件部署至Hadoop平台；c)实施并行化PageRank算法发现核心药物节点；d)结束。本发明专利技术的基于复杂网络模型并行化PageRank算法的核心药物挖掘方法建立了中药药物复杂网络模型，利用并行化技术提高了组网以及PageRank算法的可扩展性和运行速度，并且能有效挖掘复方中的关键核心药物节点，研究中药配伍规律。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种中药复杂网络建模，以及在该模型上采用并行化PageRank算法挖掘中药核心药物的技术。
技术介绍
数据挖掘技术可以在大量数据下发现潜在的、有用的知识，是计算机人工智能的重要组成部分，利用数据挖掘技术可以实现对中药复方数据的智能分析，发现潜在中药配伍规律。常用的数据挖掘模型都是基于事务项的，即把复方看成由多种药物组成的事务并储存在事务数据库中。随着中药复方数据规模的增加以及对更深层次挖掘的要求，传统的基于事务项模型的中药关联规则、分类和聚类等算法已经难以满足中药数据挖掘的需求。而将复杂网络分析以及并行计算引入中药数据挖掘中可以弥补传统数据挖掘的缺陷，井能直观展现药物间关系，加速系统响应速度，是有效的创新和尝试。复杂网络分析如今已经涉及到社会关系、经济、交通、生命科学等多个领域，能够展现节点关系拓扑结构、模拟信息传播以及挖掘节点隐藏知识。利用中药复方数据构建中药复杂网络打破了传统中药数据挖掘基于事务项的建模模型，可以深入研究中药配伍规律。其中利用复杂网络中的PageRank算法可以挖掘中药的核心药物，其主要包括两方面的应用I)哪些药物是治疗特定病症最常见且最关键的药物，比如治疗哮喘、消渴症等给定病症，哪些中药材用得多并且对组方来说最为关键。2)哪些药物是在大量中药组方中常用到的关键药物，可以大量随机选取复方数据库中的一些复方作为初始数据，研究其中关键的药物有哪些。在此与第一种应用不同的是这里并没有给定症状，而仅仅是随机选择的大量复方数据。PageRank算法是ー种数据挖掘的方法,传统的PageRank算法不能在分布式并行环境下运行，随着...

【技术保护点】

【技术特征摘要】
1.基于复杂网络模型并行化PageRank算法的核心药物挖掘方法，其特征是包括如下步骤 I)组网阶段 a)预处理生成中药复方数据集，格式化为文本数据；所说的预处理为抽取中药复方数据中所有复方的药物组成；每个中药复方均格式化为文本数据； b)将初始文本数据部署至Hadoop平台，即开发分布式并行程序的平台；所说的部署为将步骤a)生成的初始文本数据上传至Hadoop的分布式文件系统(HDFS)； c)并行化组建中药药物网络TCM；具体过程如下 1)为每个中药复方(一行文本数据)设定一个唯一复方标识ID； 2)建立从药物到复方标识ID之间的倒排索引； 3)为每个药物设定唯一药物标识id，并包含在复方中出现...

【专利技术属性】
技术研发人员：吴骏，刘正，王志坚，许峰，
申请(专利权)人：河海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人