本发明专利技术公开了一种慢阻肺高危人群筛查方法、系统、电子设备及介质,涉及医疗领域,该方法包括:获取调查区域的公共卫生数据;基于所述调查区域的公共卫生数据和慢阻肺高危人群筛查模型,筛选所述调查区域内的慢阻肺高危用户;所述慢阻肺高危人群筛查模型是基于样本数据库和机器学习算法确定的;所述样本数据库包括多个样本对;所述样本对包括样本输入数据以及对应的标签数据;所述样本输入数据是基于样本区域的公共卫生数据和慢阻肺分级诊疗推广项目数据确定的,所述标签数据是基于样本区域的慢阻肺筛查问卷数据确定的;所述标签数据包括慢阻肺高危用户和非慢阻肺高危用户。本发明专利技术能够达到快速、高效、精准完成慢阻肺高危人群筛查的目的。筛查的目的。筛查的目的。
【技术实现步骤摘要】
一种慢阻肺高危人群筛查方法、系统、电子设备及介质
[0001]本专利技术涉及医疗领域,特别是涉及一种慢阻肺高危人群筛查方法、系统、电子设备及介质。
技术介绍
[0002]慢性阻塞性肺疾病(简称慢阻肺)是最常见和危害最为严重的慢性呼吸疾病,其特征是持续存在的气流受限和相应的呼吸系统症状,其病理学改变主要是气道和(或)肺泡异常,通常与显著暴露于有害颗粒或气体相关,遗传易感性、异常的炎症反应以及与肺异常发育等众多的宿主因素参与发病过程,严重的合并症可能影响慢性阻塞性肺疾病的表现和病死率。目前针对慢阻肺的临床研究数量繁多,但多局限于确诊后的慢阻肺患者管理,忽视了慢阻肺规范管理中的高危人群筛查这一重要环节。
[0003]现有的慢阻肺高危人群筛查方法主要有三类,具体如下:
[0004]第一类,通过人工填写慢阻肺筛查问卷(简称COPS
‑
SQ)的方法来实现慢阻肺高危人群的筛查,此类方法在专业性和准确性能得到较好的保证,但鉴于其经济成本和时间成本,并不能快速和高效地实现慢阻肺高危人群的筛查。
[0005]第二类,通过固定机器学习算法和相关数据集构建预测模型的方法来实现慢阻肺高危人群的筛查,具体为:首先采集健康档案、兴趣爱好、消费、生活习惯等全方位用户信息数据,接着将全方位用户信息数据和xgboost算法相结合来建立慢阻肺预测模型,实现用户未来一年的慢阻肺发病风险预测。此类方法存在三方面的缺点:(1)没有把每个样本的COPD
‑
SQ筛查问卷结果作为慢阻肺高危人群的预测标签,存在预测标签的专业性不足的问题;(2)使用固定机器学习算法进行模型训练,并没有使用不同算法去进行数据建模,进而也没有根据不同模型对应的预测结果来选择最佳的预测模型,故这种方法对慢阻肺高危人群检出率可能会比人工使用COPD
‑
SQ的筛查方式得到的检出率低;(3)这种方法也存在需要花大量时间收集建模数据的缺点。
[0006]第三类,确定空气质量数据和慢阻肺研究病例临床数据之间的强相关参数后,对强相关参数进行拟合以构建慢阻肺发病预测模型,从而预测慢阻肺发病风险。引起慢阻肺危险因素具有多样性的特点,宏观的概括为个体易感因素和环境因素共同作用,此类方法涉及到的数据仅有单一的空气质量特征,显然此类方法的检测能力较低,同样也存在需要花大量时间收集建模数据的缺点。
[0007]综合来看,现有技术均存在无法快速、高效以及更精准地完成慢阻肺高危人群筛查等缺点,这就意味着难以大范围的推广使用。
技术实现思路
[0008]本专利技术的目的是提供一种慢阻肺高危人群筛查方法、系统、电子设备及介质,以达到快速、高效、精准完成慢阻肺高危人群筛查的目的。
[0009]为实现上述目的,本专利技术提供了如下方案:
[0010]第一方面,本专利技术提供了一种慢阻肺高危人群筛查方法,包括:
[0011]获取调查区域的公共卫生数据;
[0012]基于所述调查区域的公共卫生数据和慢阻肺高危人群筛查模型,筛选所述调查区域内的慢阻肺高危用户;
[0013]所述慢阻肺高危人群筛查模型是基于样本数据库和机器学习算法确定的;所述样本数据库包括多个样本对;所述样本对包括样本输入数据以及对应的标签数据;所述样本输入数据是基于样本区域的公共卫生数据和慢阻肺分级诊疗推广项目数据确定的,所述标签数据是基于样本区域的慢阻肺筛查问卷数据确定的;所述标签数据包括慢阻肺高危用户和非慢阻肺高危用户。
[0014]可选地,所述公共卫生数据包括居民电子健康档案数据库和居民门诊病历数据库。
[0015]可选地,所述样本数据库的构建过程为:
[0016]构建原始数据库;所述原始数据库包括多个原始数据对;所述原始数据对包括原始输入数据以及对应的标签数据;所述原始输入数据包括多个原始数据特征;所述原始数据特征为与慢阻肺关联的特征;
[0017]采用不同的机器学习算法对所述原始数据库中的数据进行训练,确定多个初步慢阻肺高危人群筛查模型;
[0018]使用10折交叉验证算法计算在所述原始数据库上每个所述初步慢阻肺高危人群筛查模型的AUC值,并将最大AUC值对应的初步慢阻肺高危人群筛查模型确定为目标模型;
[0019]利用所述目标模型,对所述原始数据特征进行筛选,得到有效数据特征;
[0020]其中,所述样本输入数据为有效数据特征;所述样本输入数据对应的标签数据为所述原始输入数据对应的标签数据。
[0021]可选地,所述构建原始数据库,具体包括:
[0022]确定慢阻肺筛查问卷对应的数据条目;
[0023]基于所述数据条目,从样本区域的所述居民电子健康档案数据库中提取第一原始输入数据;
[0024]基于所述数据条目和自然语言处理技术,从样本区域的所述居民门诊病历数据库中提取第二原始输入数据;
[0025]将所述第一原始输入数据和所述第二原始输入数据融合,得到原始输入数据;
[0026]基于所述原始输入数据和所述慢阻肺筛查问卷,确定样本区域的慢阻肺筛查问卷数据;
[0027]计算每份所述慢阻肺筛查问卷数据的得分,并根据每份所述慢阻肺筛查问卷数据的得分,确定所述原始输入数据对应的标签数据。
[0028]可选地,所述根据每份所述慢阻肺筛查问卷数据的得分,确定所述原始输入数据对应的标签数据,具体包括:
[0029]判断所述慢阻肺筛查问卷数据的得分是否大于第一阈值;
[0030]若是,则将所述原始输入数据对应的标签数据确定为慢阻肺高危用户;
[0031]若否,则将所述原始输入数据对应的标签数据确定为非慢阻肺高危用户。
[0032]可选地,所述慢阻肺高危人群筛查模型的确定过程:
[0033]采用机器学习算法对所述样本始数据库中的数据进行训练,得到慢阻肺高危人群筛查模型。
[0034]可选地,所述原始数据特征至少包括:年龄、吸烟状况、日吸烟量、体重指数、没有感冒时是否经常咳嗽、平时是否经常气促、生物燃料暴露史和家族史;
[0035]所述有效特征包括:反映居民经济情况和城乡居民类别的特征、反映生物燃料暴露史的特征、反映接触职业性粉尘和化学物质的特征、反映慢阻肺和其他疾病的患病情况特征、反映相关体检的生理生化检验结果的特征、反映体重情况相关的特征、与慢阻肺患病概率有相关的特征。
[0036]第二方面,本专利技术提供了一种慢阻肺高危人群筛查系统,包括:
[0037]调查区域公共卫生数据获取模块,用于获取调查区域的公共卫生数据;
[0038]筛选模块,用于基于所述调查区域的公共卫生数据和慢阻肺高危人群筛查模型,筛选所述调查区域内的慢阻肺高危用户;
[0039]数据显示模块,用于显示调查区域内的慢阻肺高危用户;
[0040]所述慢阻肺高危人群筛查模型是基于样本数据库和机器学习算法确定的;所述样本数据库包括多个样本对;所述样本对包括样本输入数据以及对应的标签数据;所述样本输入本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种慢阻肺高危人群筛查方法,其特征在于,包括:获取调查区域的公共卫生数据;基于所述调查区域的公共卫生数据和慢阻肺高危人群筛查模型,筛选所述调查区域内的慢阻肺高危用户;所述慢阻肺高危人群筛查模型是基于样本数据库和机器学习算法确定的;所述样本数据库包括多个样本对;所述样本对包括样本输入数据以及对应的标签数据;所述样本输入数据是基于样本区域的公共卫生数据和慢阻肺分级诊疗推广项目数据确定的,所述标签数据是基于样本区域的慢阻肺筛查问卷数据确定的;所述标签数据包括慢阻肺高危用户和非慢阻肺高危用户。2.根据权利要求1所述的一种慢阻肺高危人群筛查方法,其特征在于,所述公共卫生数据包括居民电子健康档案数据库和居民门诊病历数据库。3.根据权利要求2所述的一种慢阻肺高危人群筛查方法,其特征在于,所述样本数据库的构建过程为:构建原始数据库;所述原始数据库包括多个原始数据对;所述原始数据对包括原始输入数据以及对应的标签数据;所述原始输入数据包括多个原始数据特征;所述原始数据特征为与慢阻肺关联的特征;采用不同的机器学习算法对所述原始数据库中的数据进行训练,确定多个初步慢阻肺高危人群筛查模型;使用10折交叉验证算法计算在所述原始数据库上每个所述初步慢阻肺高危人群筛查模型的AUC值,并将最大AUC值对应的初步慢阻肺高危人群筛查模型确定为目标模型;利用所述目标模型,对所述原始数据特征进行筛选,得到有效数据特征;其中,所述样本输入数据为有效数据特征;所述样本输入数据对应的标签数据为所述原始输入数据对应的标签数据。4.根据权利要求3所述的一种慢阻肺高危人群筛查方法,其特征在于,所述构建原始数据库,具体包括:确定慢阻肺筛查问卷对应的数据条目;基于所述数据条目,从样本区域的所述居民电子健康档案数据库中提取第一原始输入数据;基于所述数据条目和自然语言处理技术,从样本区域的所述居民门诊病历数据库中提取第二原始输入数据;将所述第一原始输入数据和所述第二原始输入数据融合,得到原始输入数据;基于所述原始输入数据和所述慢阻肺筛查问卷,确定样本区域的慢阻肺筛查问卷数据;计算每份所述慢阻肺筛查问卷数据的得分,并根据每份所述慢阻肺筛查问卷数据的得分,确定所述原始输入数据对应的标签数据。5.根据权利要求4...
【专利技术属性】
技术研发人员:牛宏涛,黄可,董芬,潘君,贾存波,杨汀,王青,雷毅,林鑫山,
申请(专利权)人:数聚工研北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。