System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及对医案的穴位配伍进行识别的方法。更具体地说,本专利技术涉及一种基于命名实体对穴位配伍中各角色进行识别的方法。
技术介绍
1、命名实体识别(named entity recognition,ner)是一项旨在文本中确定实体的边界并将实体准确归类的任务。命名实体识别任务是许多自然语言处理(naturallanguage processing,nlp)任务的基础,例如信息抽取、问答、信息检索、知识图谱等,备受研究人员的关注。
2、随着医学与信息技术的融合,命名实体识别在医学研究领域的重要性日益突显,其主要的研究方法包括基于规则和词典的方法、基于统计的机器学习的方法和基于深度学习的方法等。最早的命名实体识别主要基于规则和词典实现。这种方法依赖于预先构建的规则和词典,对于词典和规则之外的命名实体无法有效地识别,而且难以适应不同的领域和语言。为解决以上问题,机器学习模型逐渐取代了基于规则和词典的方法。基于统计的机器学习的方法主要采用马尔可夫模型和随机条件场 (conditional random field,crf)模型等。基于统计的机器学习的方法能够识别词典和规则之外命名实体,但是该方法依赖大量的特征工程,而且需要专业领域的知识。
3、穴位配伍是指将功效相近的不同穴位组合在一起,以发挥穴位间的协同效应以实现疗效提升,是针灸处方的基础。恰当的穴位配伍是实现和提升针灸疗效的关键。穴位的命名实体识别是生物化学研究中信息提取的一个关键领域。ner为药物的文本挖掘提供支持,包括实体关系提取、属性提取等。然而,生
技术实现思路
1、本专利技术的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
2、为了实现本专利技术的这些目的和其它优点,提供了一种基于命名实体对穴位配伍中各角色进行识别的方法,包括:
3、s1、搜集相关病症的古代医案和针灸治疗的临床研究文献,搭建针灸治疗的文献数据库d;
4、s2、基于对文献数据库d进行分析处理,以通过自建的针灸穴位配伍数据集对每个穴位名进行表征;
5、s3、基于分段的pso模型结构优化对针灸穴位配伍词典的一个子集进行超参数优化,以得到用于命名实体识别的bilstm+crf模型中的超参数配置,对整个文献数据库d进行训练和测试,得到穴位配伍识别模型;
6、s4、对于任意一个穴位序列以及对应的标签序列,所述穴位配伍识别模型通过下式对各穴位在治疗对应疾病中的角色进行识别:
7、
8、上式中,p为两层lstm神经网络的计算得分矩阵,表示该针灸处方中第i个穴位名为第 y i个角色标签的得分,σ表示逻辑回归中的sigmoid函数,a表示标签之间的转移概率矩阵,表示序列的第一个标签为 y i的概率,ɛ1、ɛ2分别表示标签概率矩阵和标签得分的权重,且ɛ1+ɛ2=1。
9、优选的是,在s2中,所述分析处理包括:
10、s20、对文献数据库d中的文本进行预处理;
11、s21、通过开源工具包ltp对预处理后的文本进行依存语法分析,以对穴位配伍中各穴位的主辅角色依存关系进行提取;
12、s22、通过开源句法分析器berkeleyparser对预处理后的文本进行分析,以识别句子中的成分和短语结构,并根据分析结果对症状语句进行断句处理,完成短语结构句法分析;
13、s23、基于主辅角色依存关系、短语结构句法分析结果,得到各穴位在治疗对应疾病中的效应特征,以建立针灸穴位配伍数据集。
14、优选的是,在s3中,超参数配置的获取流程包括:
15、s30、在pso的初始化中,用粒子的维度来代表每个穴位角色标注的参数;
16、s31、第一阶段,把粒子的参数代入穴位角色标注的bilstm+crf模型中进行双重交叉验证,以评估函数的适配值,更新每个粒子的速度、位置,完成50次迭代;
17、s32、基于对第一阶段中粒子各个维度的收敛情况分析,确定第二阶段pso粒子的各个维度初始范围,对bilstm+crf模型进行10倍交叉验证,并迭代十次,以挑选出6个最佳粒子后得到对应的超参数配置。
18、优选的是,所述bilstm+crf模型包括lstm单元和bi-lstm单元;
19、所述lstm单元以针灸穴位配伍数据集z作为输入,通过引入动态门控机制、多头记忆耦合机构、层次化特征融合策略以及穴位功能特征,构建增强型动态神经记忆单元,所述lstm单元更新和输出通过下式进行表征:
20、
21、
22、上式中, h t为lstm单元在t时刻的输出,表示从自建词典中动态获取的编码穴位功能特征,c为lstm记忆单元的值, i t、 f t、 o t、、 c t分别表示输入门、遗忘门、输出门、当前时刻记忆单元状态候选值以及状态值, w c、 w i、 w f、 w o分别表示输入到记忆单元状态候选值、输入门、遗忘门、输出门的权重矩阵,表示k个独立的记忆头参数组,表示m个独立的输入门参数组,、、、表示可学习的门控参数向量, z t表示 t时刻针灸穴位词典的穴位特征输入, h t-1表示上一时刻lstm单元的输出, b c、 b i、 b f、 b o分别表示输入到记忆单元状态候选值、输入门、遗忘门、输出门的偏置项, 本文档来自技高网...
【技术保护点】
1.一种基于命名实体对穴位配伍中各角色进行识别的方法,其特征在于,包括:
2.如权利要求1所述的基于命名实体对穴位配伍中各角色进行识别的方法,其特征在于,在S2中,所述分析处理包括:
3.如权利要求1所述的基于命名实体对穴位配伍中各角色进行识别的方法,其特征在于,在S3中,超参数配置的获取流程包括:
4.如权利要求3所述的基于命名实体对穴位配伍中各角色进行识别的方法,其特征在于,所述BiLSTM+CRF模型包括LSTM单元和Bi-LSTM单元;
5.如权利要求4所述的基于命名实体对穴位配伍中各角色进行识别的方法,其特征在于,所述Bi-LSTM单元的输出P通过下式获得:
6.如权利要求1所述的基于命名实体对穴位配伍中各角色进行识别的方法,其特征在于,所述BiLSTM+CRF模型中通过CRF层转移约束强化;
【技术特征摘要】
1.一种基于命名实体对穴位配伍中各角色进行识别的方法,其特征在于,包括:
2.如权利要求1所述的基于命名实体对穴位配伍中各角色进行识别的方法,其特征在于,在s2中,所述分析处理包括:
3.如权利要求1所述的基于命名实体对穴位配伍中各角色进行识别的方法,其特征在于,在s3中,超参数配置的获取流程包括:
4.如权利要求3所述的基于命名实体对穴位配伍中各...
【专利技术属性】
技术研发人员:林薇,曾芳,尹涛,曹静雅,杨城浩,
申请(专利权)人:成都中医药大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。