一种基于在线强化学习的血糖调控方法技术

技术编号：42128615 阅读：19 留言：0更新日期：2024-07-25 00:44

本发明专利技术提供了一种基于在线强化学习的血糖调控方法，将血糖调控问题形式化为多臂老虎机框架，并利用核心控制算法CNUCB算法，即一种带有保守探索机制的神经老虎机算法构建个性化血糖调控模型，患者的生理状态即为状态信息，血糖调控药物及用量即为动作，而用药后患者的血糖均值即为评估指标转化为奖励反馈给算法。本发明专利技术所述的基于在线强化学习的血糖调控方法为糖尿病患者推荐个性化血糖调控方案，最大程度帮助患者血糖维持在目标范围内；扩展一般人工胰岛框架提高模型精确性；引入保守探索机制，实现对模型安全性的保障；引入深度神经上下文学习，增强对数据的拟合能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及血糖调控，特别涉及一种基于在线强化学习的血糖调控方法。

技术介绍

1、糖尿病（diabetes mellitus， dm）是一种由多因素引起且无法根治的慢性病，其主要特点是高血糖、糖尿。近年来，人们生活质量逐渐提高、生活节奏不断加快，导致生活方式不健康化程度加剧，全球糖尿病的发病率随之迅速增长。糖尿波已经成为了慢性病中严重威胁人类生活及健康的一大疾病。

2、糖尿病的治疗目标是控制血糖水平以保证患者良好的生活质量，目前主要有四种调控方法：

3、1、传统治疗方法。目前中国糖尿病主要治疗模式是通过医生根据随机临床试验结果、治疗指南和医生自身的经验定期定量为患者注射胰岛素来实现，当患者的血糖值可控后，患者可以自行注射胰岛素进行自我管理。患者需学会定期自行监测血糖，根据情况及时调整治疗方案，促使血糖达标。

4、2、基于生理模型的方法。生理模型利用了有关于血糖-胰岛素系统生理原理的先验知识，bergman 最小模型 (bergman minimal model，bmm) 是迄今为止应用最广泛的模型。该模型运用了常微分方程描述血糖-胰岛素之间的动态过程，对于后人建立血糖调控模型产生了深远的影响。该模型包括葡萄糖系统和胰岛素系统两大子模型。模型不是针对整个系统而是针对两个子系统分别独立提出的，从而降低了建模的难度。

5、3、基于数据模型的方法。随着现代医学产生的大规模的、复杂的生物医学信息数据的引入，各类基于数据的机器学习技术在血糖调控模型中的血糖预测方面得到了广泛的研究和应用。这类

6、4、基于强化学习的方法。在血糖调控场景中，强化学习框架中的环境为糖尿病患者的血糖系统，智能体为强化学习算法，状态空间为患者的血糖水平，行动空间为胰岛素使用剂量，奖励函数由调控决策后患者的血糖水平与理想的血糖水平的差异决定。

7、然而现有血糖调控方法有如下缺陷和不足：

8、1、目前糖尿病血糖调控方法多依赖医生以往的诊疗经验和患者的自我管理。然而这并不具有普遍性和适用性。不同的患者患病情况、体质、发病原因和个人情况均不相同，因此，个性化的、针对性强的疗法才是未来的方向。

9、2、基于生理模型的血糖调控模型建模过程繁琐。生理模型的构建涉及大量参数，且不同的患者有不同的参数，这些参数很难精准测量，建模过程十分复杂。

10、3、基于数据驱动的血糖调控模型对数据要求高。在现有的糖尿病血糖调控研究中，基于数据驱动的血糖预测是受欢迎的焦点。但它需要足量、完整的历史数据，这在现实世界中很难获得。

11、4、现有的基于强化学习的血糖调控研究很难保证模型的准确性和安全性。虽然相比于基于生理模型的血糖调控方法，强化学习模型更加简洁；而相比于基于数据模型的血糖调控方法，强化学习算法无需大量数据驱动。然而现有的多数在基于线强化学习的血糖调控方法都只考虑到了少量的变量，而且在应用初期很难保证其安全性，无法应用于实际。

12、总结来说，国内目前糖尿病血糖调控方法多依赖医生以往的诊疗经验和患者的自我管理。由于各个患者的血糖系统是十分复杂的，难免会出现对病情判断出错，治疗方案有误的情况。基于生理模型的血糖调控模型建模过程繁琐。基于数据驱动的血糖调控模型对数据要求高。现有的基于强化学习的血糖调控研究很难保证模型的准确性和安全性。

技术实现思路

1、有鉴于此，本专利技术旨在提出一种基于在线强化学习的血糖调控方法，以构建一个安全、可靠的个性化血糖调控模型。

2、为达到上述目的，本专利技术的技术方案是这样实现的：

3、一种基于在线强化学习的血糖调控方法：将血糖调控问题形式化为多臂老虎机框架，并利用核心控制算法cnucb算法，即一种带有保守探索机制的神经老虎机算法构建个性化血糖调控模型，患者的生理状态即为状态信息，血糖调控药物及用量即为动作，而用药后患者的血糖均值即为评估指标转化为奖励反馈给算法；

4、在每次时间步骤中，多臂老虎机的流程是：

5、mab算法观测本轮的上下文信息得到状态信息；

6、mab算法根据和决策记录在可选动作集合中选择一个动作；

7、mab算法收到奖励反馈<msub><mi>r</mi><mi>t</mi></msub><mi>∈[0,1]</mi>并更新决策记录；

8、其中，从血糖值到奖励值的转换基于血糖风险函数：

9、

10、cnucb算法包括：保守探索机制和神经上下文学习；

11、所述cnucb控制算法所构建血糖调控方法：每当患者的血糖值高于设定预警值或患者需要用餐前后，血糖调控模型遵循以下流程：

12、从该患者的可穿戴医疗设备中获取上下文信息并得到保守策略的胰岛素注射量；

13、将和输入至cnucb算法并输出推荐胰岛素注射量；

14、通过胰岛素泵输注给患者后得到胰岛素注射后30分钟到120分钟期间的血糖平均值转换为奖励后并反馈给cnucb算法。

15、进一步的，所述保守探索机制：所述cnucb算法引入了基线政策；每轮会给出一个可供选择的基线动作和它的期望奖励；算法需要在最佳动作和中选择一个作为本轮决策，标准如下：

16、

17、其中，保守系数，越小表示算法的保守程度越高，更偏向选择基线政策；

18、所述保守探索机制设置包括pid控制算法或真实医生决策作为基线策略；根据决策标准式计算按照基线策略注射后的血糖值：

19、

20、其中，是上下文信息中的当前血糖值，是胰岛素注射后血糖值，cho表示膳食碳水化合物摄入量，icr表示患者的碳水化合物与胰岛素比率指数，isf是患者的胰岛素敏感因子。

21、进一步的，所述神经上下文学习：所述cnucb算法引入深度神经网络学习多臂老虎机问题的奖励函数；本算法的探索策略基于ucb，在此设置中，每轮选择作为最佳动作：

22、

23、其中，神经网络函数的梯度，探索系数，越大表示算法探索的意愿越高，更偏向选择探索次数少的动作。

24、进一步的，所述状态信息：患者生理状态，包括但不限于血糖值、膳食碳水化合物摄入量、运动评分、心率、皮肤电反应。

25、所述动作：餐前餐后或高血糖时胰岛素用量。

26、所述奖励反馈：胰岛素注射后30分钟到120分钟期间的血糖平均值。

27、相对于现有技术，本专利技术具有以下优势：

28、本专利技术所述的基于在线强化学习的血糖调控方法，通过引入保守探索机制增强模型安全性；现有的基于在线强化学习的血糖调控模型，忽略了早期决策时的算本文档来自技高网...

【技术保护点】

1.一种基于在线强化学习的血糖调控方法，其特征在于：将血糖调控问题形式化为多臂老虎机框架，并利用核心控制算法CNUCB算法，即一种带有保守探索机制的神经老虎机算法构建个性化血糖调控模型，患者的生理状态即为状态信息，血糖调控药物及用量即为动作，而用药后患者的血糖均值即为评估指标转化为奖励反馈给算法；

2.所述CNUCB算法包括：保守探索机制和神经上下文学习；

3.根据权利要求1所述的基于在线强化学习的血糖调控方法，其特征在于：

4.其中，保守系数，越小表示算法的保守程度越高，更偏向选择基线政策；

5.其中，是上下文信息中的当前血糖值，是胰岛素注射后血糖值，CHO表示膳食碳水化合物摄入量，ICR表示患者的碳水化合物与胰岛素比率指数，ISF是患者的胰岛素敏感因子。

6.根据权利要求2所述的基于在线强化学习的血糖调控方法，其特征在于：

7.其中，神经网络函数的梯度，探索系数，越大表示算法探索的意愿越高，更偏向选择探索次数少的动作。

8.根据权利要求1所述的基于在线强化学习的血糖调控方法，其特征在于：p>

9.所述动作：餐前餐后或高血糖时胰岛素用量。

10.所述奖励反馈：胰岛素注射后30分钟到120分钟期间的血糖平均值。

...

【技术特征摘要】

1.一种基于在线强化学习的血糖调控方法，其特征在于：将血糖调控问题形式化为多臂老虎机框架，并利用核心控制算法cnucb算法，即一种带有保守探索机制的神经老虎机算法构建个性化血糖调控模型，患者的生理状态即为状态信息，血糖调控药物及用量即为动作，而用药后患者的血糖均值即为评估指标转化为奖励反馈给算法；

2.所述cnucb算法包括：保守探索机制和神经上下文学习；

3.根据权利要求1所述的基于在线强化学习的血糖调控方法，其特征在于：

4.其中，保守系数，越小表示算法的保守程度越高，更偏向选择基线政策；

5.其中，是上下...

【专利技术属性】
技术研发人员：江琳艺，何丽莉，白洪涛，张乐佳，韩欣悦，贾宁霞，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人