当前位置: 首页 > 专利查询>中南大学专利>正文

一种性别识别系统构建方法、系统及识别方法技术方案

技术编号:23673508 阅读:30 留言:0更新日期:2020-04-04 18:42
本发明专利技术公开了一种性别识别系统构建方法、系统及识别方法,性别识别系统构建方法包括如下步骤:根据待识别年龄段,采集构建训练样本集,所述训练样本集中的训练样本包括年龄、性别和医学检查项目指标;根据预设的区间个数将所述待识别年龄段划分为年龄子区间,并将所述训练样本集按照年龄划分为与所述年龄子区间对应的训练样本子集;为每个所述年龄子区间分别构建性别识别智能算法模型;对每个所述性别识别智能模型,选择所述训练样本集中的训练样本,以所述医学检查项目指标值为特征,以性别标签,对所述性别识别智能模型进行训练,得到性别识别系统。具有识别效率高,识别准确性好等优点。

A construction method, system and recognition method of gender recognition system

【技术实现步骤摘要】
一种性别识别系统构建方法、系统及识别方法
本专利技术涉及医学检查大数据处理
,尤其涉及一种性别识别系统构建方法、系统及识别方法,特别是应用于医学检查大数据进行性别识别。
技术介绍
随着信息时代的到来,大数据技术得到不断的发展,并被广泛应用到社会的各个领域之中。如何利用大数据分析技术,将大数据变成大智慧,已经越来越被人们所关注。在医疗领域里,传统档案病例量大、数据结构复杂,包含大量的结构化和非结构化数据;基层人群访医不便等问题亟待解决。在此背景下,智慧医疗服务模式应运而生,例如,电子健康档案、在线智慧诊断等成为医疗事业发展的主要趋势。目前,我国智慧医疗建设仍处于发展阶段,在从传统档案向电子档案转化的过程中,存在着大量个体基本属性缺失的档案;在线智慧诊断也存在着无法获取个体基本属性的可能。而在描述个体基本属性的众多信息里,性别无疑是最重要的信息之一。目前的性别识别研究多为使用头像照片、手写字体、文本、用户手机行为等数据进行性别识别,未有对医学检查数据进行性别识别的研究,因此需要提供一种通过医学检查项目数据对性别进行高效、准确的识别方法;目前对于医学检查数据的研究,更多的是在探讨两性在某些医学检查项目上是否有显著的不同。一些文献研究了年龄区间划分问题,它们假设了检查项目随年龄变化的程度是稳定的,粗略地以10岁或5岁为一个年龄阶段对年龄区间进行划分,缺乏更严谨合理的年龄区间划分方法。针对以上问题,本专利技术提供了一种基于医学检查大数据的性别识别方法,通过对年龄区间进行合理的划分,解决部分检查项目数值在年龄上呈现显著差异而导致在性别上差异相对减弱的问题,大大提高了性别识别的准确率。
技术实现思路
本专利技术要解决的技术问题就在于:针对现有技术存在的技术问题,本专利技术提供一种识别效率高,识别准确性好的性别识别系统构建方法、系统及识别方法。为解决上述技术问题,本专利技术提出的技术方案为:一种性别识别系统构建方法,包括如下步骤:根据待识别年龄段,采集构建训练样本集,所述训练样本集中的训练样本包括年龄、性别和医学检查项目指标;根据预设的区间个数将所述待识别年龄段划分为年龄子区间,并将所述训练样本集按照年龄划分为与所述年龄子区间对应的训练样本子集;为每个所述年龄子区间分别构建性别识别智能算法模型;对每个所述性别识别智能模型,选择所述训练样本集中的训练样本,以所述医学检查项目指标值为特征,以性别标签,对所述性别识别智能模型进行训练,得到性别识别系统。进一步地,将所述待识别年龄段划分为年龄子区间具体包括:在所述待识别年龄段中确定第一关键年龄,并根据所述第一关键年龄将所述待识别年龄段划分为第一年龄子区间;根据所述医学检查项目指标计算所述训练样本集中各训练样本在所述待识别年龄段内的总体质变化量,和各年龄的累计体质变化量;按照预设的区间个数通过所述总体质变化量和所述累计体质变化量计算确定第二关键年龄,并根据所述第二关键年龄将所述待识别年龄段划分为年龄子区间。进一步地,所述第一关键年龄为根据预设起始年龄和预设的调整步长所确定。进一步地,所述总体质变化量通过式(1)计算:式(1)中,Ω*为总体质变化量,t为所述第一年龄子区间的编号,T为所述第一年龄子区间的数量,w(t)为编号为t的第一年龄子区间的累计体质变化量;所述编号为t的第一年龄子区间的累计体质变化量通过式(2)计算:式(2)中,len(t)为编号为t的第一年龄子区间的长度,Roc(t,γ)为医学检查项目指标γ在编号为t的第一年龄子区间内的变化速率,Iof(t,γ)为医学检查项目指标γ在编号为t的第一年龄子区间对性别识别的贡献程度,t为所述第一年龄子区间的编号,γ为医学检查项目指标,Г为所述医学检查项目指标集合,T为所述第一年龄子区间的数量;所述各年龄的累计体质变化量根据所述第一年龄子区间的累计体质变化量进行插值计算确定。进一步地,所述医学检查项目指标γ在编号为t的第一年龄子区间内的变化速率Roc(t,γ)通过式(3)计算:式(3)中,roc(c,t,γ)为性别为c的训练样本群体的在医学检查项目指标γ中的均值变化速率,c为性别,c为性别集合;式(3)中,roc(c,t,γ)如式(4)所示:式(4)中,分别为编号为t和t+1的第一年龄子区间所对应的第一训练样本子集,分别为第一训练样本子集中性别为c的训练样本构成的子集,分别为求解子集和中医学检查项目指标γ的均值,k为预设的调整步长。进一步地,所述医学检查项目指标γ在编号为t的第一年龄子区间对性别识别的贡献程度Iof(t,γ)为如式(5)所示:式(5)中,Ola(t,γ)为医学检查项目指标γ在编号为t的第一年龄子区间内男、女性别分布相似程度,γ为医学检查项目指标,Г为所述医学检查项目指标集合;其中,医学检查项目指标γ在编号为t的第一年龄子区间内男、女性别分布相似程度Ola(t,γ)如式(6)所示:式(6)中,为将第一训练样本子集中的医学检查项目指标γ的值域等分为d份后,编号为r的值域子区间内性别c的训练样本的集合,其中r=1,2,…,δ,为第一训练样本子集中性别为c的训练样本构成的子集,card(·)为求解集合中样本数量的运算,t为所述第一年龄子区间的编号,γ为医学检查项目指标。进一步地,还包括分别为每个年龄子区间构建测试样本子集,并通过所述测试样本子集对所述性别识别智能算法模型进行优选,以性能最好的性别识别智能算法模型作为测试样本子集所对应年龄子区间的性别识别智能算法模型。一种性别识别系统,包括如上任一项所述性别识别系统构建方法所构建的性别识别系统。一种性别识别方法,获取待识别性别的医学数据,所述待识别性别的医学数据包括年龄和医学检查项目指标;并确定所述年龄在如上所述的性别识别系统中的年龄子区间,或者与所述年龄最接近的年龄子区间;以所述年龄子区间对应的性别识别智能算法模型对所述医学检查项目指标进行识别,得到所述待识别性别的医学数据的主体的性别。一种性别识别方法,获取待识别性别的医学数据,所述待识别性别的医学数据包括医学检查项目指标;以上所述的性别识别系统中各年龄子区间所对应的性别识别智能算法模型分别对所述医学检查项目指标进行识别,分别得到识别出的目标性别与目标性别的概率;并分别计算各目标性别的概率之和,以概率最大的目标性别为所述待识别性别的医学数据的主体的性别。与现有技术相比,本专利技术的优点在于:1、本专利技术通过性别识别智能算法模型对医学检查项目指标与性别、年龄的大数据进行学习,从而使得性别识别智能算法模型能够通过医学检查项目指标识别出该医学检查项目指标的主体的性别及概率,在对性别识别智能算法模型进行训练完成后,通过该性别识别智能算法模型就能够快速、准确的对缺少性别属性的医学检查项目指标进行性别识别,识别效率高,准确性好。2、本专利技术通过对待识别年龄段进行合理的区间划分,对于每个年龄子区本文档来自技高网
...

【技术保护点】
1.一种性别识别系统构建方法,其特征在于,包括如下步骤:/n根据待识别年龄段,采集构建训练样本集,所述训练样本集中的训练样本包括年龄、性别和医学检查项目指标;/n根据预设的区间个数将所述待识别年龄段划分为年龄子区间,并将所述训练样本集按照年龄划分为与所述年龄子区间对应的训练样本子集;/n为每个所述年龄子区间分别构建性别识别智能算法模型;/n对每个所述性别识别智能模型,选择所述训练样本集中的训练样本,以所述医学检查项目指标值为特征,以性别标签,对所述性别识别智能模型进行训练,得到性别识别系统。/n

【技术特征摘要】
1.一种性别识别系统构建方法,其特征在于,包括如下步骤:
根据待识别年龄段,采集构建训练样本集,所述训练样本集中的训练样本包括年龄、性别和医学检查项目指标;
根据预设的区间个数将所述待识别年龄段划分为年龄子区间,并将所述训练样本集按照年龄划分为与所述年龄子区间对应的训练样本子集;
为每个所述年龄子区间分别构建性别识别智能算法模型;
对每个所述性别识别智能模型,选择所述训练样本集中的训练样本,以所述医学检查项目指标值为特征,以性别标签,对所述性别识别智能模型进行训练,得到性别识别系统。


2.根据权利要求1所述的性别识别系统构建方法,其特征在于:将所述待识别年龄段划分为年龄子区间具体包括:
在所述待识别年龄段中确定第一关键年龄,并根据所述第一关键年龄将所述待识别年龄段划分为第一年龄子区间;
根据所述医学检查项目指标计算所述训练样本集中各训练样本在所述待识别年龄段内的总体质变化量,和各年龄的累计体质变化量;
按照预设的区间个数通过所述总体质变化量和所述累计体质变化量计算确定第二关键年龄,并根据所述第二关键年龄将所述待识别年龄段划分为年龄子区间。


3.根据权利要求2所述的性别识别系统构建方法,其特征在于:所述第一关键年龄为根据预设起始年龄和预设的调整步长所确定。


4.根据权利要求3所述的性别识别系统构建方法,其特征在于:所述总体质变化量通过式(1)计算:



式(1)中,Ω*为总体质变化量,t为所述第一年龄子区间的编号,T为所述第一年龄子区间的数量,w(t)为编号为t的第一年龄子区间的累计体质变化量;
所述编号为t的第一年龄子区间的累计体质变化量通过式(2)计算:



式(2)中,len(t)为编号为t的第一年龄子区间的长度,Roc(t,γ)为医学检查项目指标γ在编号为t的第一年龄子区间内的变化速率,Iof(t,γ)为医学检查项目指标γ在编号为t的第一年龄子区间对性别识别的贡献程度,t为所述第一年龄子区间的编号,γ为医学检查项目指标,Г为所述医学检查项目指标集合,T为所述第一年龄子区间的数量;
所述各年龄的累计体质变化量根据所述第一年龄子区间的累计体质变化量进行插值计算确定。


5.根据权利要求4所述的性别识别系统构建方法,其特征在于:所述医学检查项目指标γ在编号为t的第一年龄子区间内的变化速率Roc(t,γ)通过式(3)计算:



式(3)中,roc(c,t,γ)为性别为c的训练样本群体的在医学检查项目指标γ中...

【专利技术属性】
技术研发人员:何世文宋健张晓洁何雅琪李稳章桐张尧学
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1