本发明专利技术的一种基于深度强化学习的脑波诱导方法及存储介质,包括以下步骤,S1、采集用户脑波数据;S2、将用户脑波数据输入到预先训练的强化学习模型模块,输出需要播放的图片序号;S3、图片播放模块依据图片序号选择对应的图片进行播放;S4、图片播放设定时长之后重复S1~S3步骤。本发明专利技术的基于深度强化学习的脑波诱导方法能够自动根据刺激信号集合选择最合适的刺激信号及其顺序,在一定程度上避免了过度依赖专家知识,降低成本。降低成本。
【技术实现步骤摘要】
一种基于深度强化学习的脑波诱导方法及存储介质
[0001]本专利技术涉及脑波数据处理
,具体涉及一种基于深度强化学习的脑波诱导方法及存储介质。
技术介绍
[0002]脑波(英语:brainwave)是指人脑内的神经细胞活动时所产生的电气性摆动。因这种摆动呈现在科学仪器上,看起来就像波动一样,故称之为脑波。用一句话来说明脑波的话,或许可以说它是由脑细胞所产生的生物能源,或者是脑细胞活动的节奏。人类每一秒,不论在做什么,甚至睡觉时,大脑都会不时产生像“电流脉冲”一样的“脑波”。脑波依频率可分为五大类:β波(显意识14
‑
30HZ)、α波(桥梁意识8
‑
14HZ)、θ波(潜意识4
‑
8Hz)及δ波(无意识4Hz以下)和γ波(专注于某件事30HZ以上)等。这些意识的组合,形成了一个人的内外在的行为、情绪及学习上的表现。β脑波,是一种有意识的脑波,它以每秒钟13~25周波的频率运行着。当人们处于清醒、专心、保持警觉的状态,或者是在思考、分析、说话和积极行动时,头脑就会发出这种脑波。
[0003]脑波诱导(Brainwave entrainment)也叫大脑加载,是通过外部刺激使脑电波从一种模式转变到另一种模式,从而干预人的情绪。常见的脑波诱导有双耳拍频、单声道拍音、等时音、光谱诱导等。前三种也叫声学诱导,被用的最多。随着脑波采集设备的逐渐成熟,对于脑波诱导的研究更加广泛。
[0004]目前脑波诱导实施的方法大多是通过专家实验室研究刺激信号的改变与脑波状态的改变关系,从而确定诱导方式。
[0005]强化学习是一种研究已久的学习控制策略的算法。其基本思路是在根据外部环境、内部状态、给定的策略集合情况下,按照某种策略组合使得累积奖励最大。Q
‑
Learing是一种比较常用的强化学习形式。该技术不需要模型,能够学习到最优的策略价值函数,这里的策略价值函数代表的是策略的长期奖励。
[0006]目前脑波诱导方法主要依靠专家知识选择相应的刺激信号以及刺激时机,还需要控制刺激时长,成本较大。
技术实现思路
[0007]本专利技术提出的一种基于深度强化学习的脑波诱导方法,可至少解决上述技术问题之一。
[0008]为实现上述目的,本专利技术采用了以下技术方案:
[0009]一种基于深度强化学习的脑波诱导方法,包括以下步骤,
[0010]S1、采集用户脑波数据;
[0011]S2、将用户脑波数据输入到预先训练的强化学习模型模块,输出需要播放的图片序号;
[0012]S3、图片播放模块依据图片序号选择对应的图片进行播放;
[0013]S4、图片播放设定时长之后重复S1~S3步骤。
[0014]进一步的,所述强化学习模型模块训练过程如下:
[0015](a)、预先根据指定知识收集能够诱导脑波达到固定状态的图片,编号1~N,形成图片集合;
[0016](b)、寻找志愿者,在特定环境下让志愿者佩戴脑波采集设备,首先采集L时长的脑波W1,然后开始播放图片;对于一个志愿者,最开始播放的图片是随机从图片集合中选取的,记为n1号图片;志愿者观看播放的n1号图片,同时脑波采集设备持续采集,观看时长L之后,采集了脑波数据W2;此时,后续定义的神经网络开始处理脑波数据W1、脑波数据W2,最终神经网络输出一个图片序号n2,程序根据序号检索图片集合,将播放图片切换为n2号图片;观看L秒后,这段时间采集到的脑波数据记为W3,神经网络开始处理脑波数据W2,脑波数据W3,最终神经网络输出新的图片序号n3,依此一直进行,每次神经网络处理的都是前一脑波数据,当前观看图片时的脑波数据,然后给出新的图片编号。
[0017]进一步的,所述强化学习模型模块的结构包括:
[0018]类BERT编码模型:该模型是模仿自然语言处理中BERT模型的训练方法,基于脑波数据训练出类似BERT的预训练模型,内置到这里的网络结构中,用于对脑波数据进行编码;
[0019]Encoder Block:Encoder Block指的是基于自注意力机制实现的结构,相当于堆叠了N个自注意力结构和前馈网络的模块,N在实际训练过程中可以调整;
[0020]全连接:全连接是传统的神经网络中全连接的实现,为了将Encoder Block输出的特征映射到图片编号。
[0021]进一步的,所述强化学习模型模块的结构内部执行过程如下:
[0022]假设以诱导脑波中α波占主要状态作为最终模型的训练目标,某次网络执行时输入的数据为:脑波数据W1,图片数据n1,脑波数据W2;
[0023](a)、如果是第一次训练,使用上述网络结构初始化两个网络对象记为Net1,Net2;其中Net1用于处理脑波数据W1,其输出结果会用于构建后续的损失函数和计算图片编号,Net2的输出结果用来辅助构建后续用到的损失函数;如果不是第一次训练,判断是否已经经过C轮训练,是的话,直接使用Net1替换Net2,否则不替换;
[0024](b)、使用Net1处理脑波数据W1,得到输出output1,根据output1得到下一个图片编号n2;
[0025](c)、使用Net2处理脑波数据W1,得到输出output2;
[0026](d)、分析脑波数据W2,计算其中α波占比,记为p1;
[0027](e)、构建损失函数:loss=
‑
(p1+γ*output2
‑
output1);
[0028](f)、将loss进行反向传播,更新Net1的参数;
[0029](g)、循环执行步骤a~f。
[0030]另一方面,本专利技术的一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。
[0031]由上述技术方案可知,本专利技术的基于深度强化学习的脑波诱导方法能够自动根据刺激信号(这里用的是图片)集合选择最合适的刺激信号及其顺序,在一定程度上避免了过度依赖专家知识,降低成本。
附图说明
[0032]图1是本专利技术的方法示意图;
[0033]图2是本专利技术实施例的结构示意图。
具体实施方式
[0034]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。
[0035]如图1所示,本实施例所述的基于深度强化学习的脑波诱导方法基于强化学习模型模块,如图1所示,其主要作用是使用预训练好的深度强化学习模型获取下一个需要播放的图片序号,然后图片播放模块根据图片序号选择对应的图片进行播放。
[0036]工作流程如下:
[0037]S1、采集用户脑波数据(一般采集10秒);
[0038]S2、将用户脑波数据输入到强化学习模型模块,输出需要播放本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的脑波诱导方法,其特征在于,包括以下步骤,S1、采集用户脑波数据;S2、将用户脑波数据输入到预先训练的强化学习模型模块,输出需要播放的图片序号;S3、图片播放模块依据图片序号选择对应的图片进行播放;S4、图片播放设定时长之后重复S1~S3步骤。2.根据权利要求1所述的基于深度强化学习的脑波诱导方法,其特征在于:所述强化学习模型模块训练过程如下:(a)、预先根据指定知识收集能够诱导脑波达到固定状态的图片,编号1~N,形成图片集合;(b)、寻找志愿者,在特定环境下让志愿者佩戴脑波采集设备,首先采集L时长的脑波W1,然后开始播放图片;对于一个志愿者,最开始播放的图片是随机从图片集合中选取的,记为n1号图片;志愿者观看播放的n1号图片,同时脑波采集设备持续采集,观看时长L之后,采集了脑波数据W2;此时,后续定义的神经网络开始处理脑波数据W1、脑波数据W2,最终神经网络输出一个图片序号n2,程序根据序号检索图片集合,将播放图片切换为n2号图片;观看L秒后,这段时间采集到的脑波数据记为W3,神经网络开始处理脑波数据W2,脑波数据W3,最终神经网络输出新的图片序号n3,依此一直进行,每次神经网络处理的都是前一脑波数据,当前观看图片时的脑波数据,然后给出新的图片编号。3.根据权利要求2所述的基于深度强化学习的脑波诱导方法,其特征在于:所述强化学习模型模块的结构包括:类BERT编码模型:该模型是模仿自然语言处理中BERT模型的训练方法,基于脑波数据训练出类似BERT的预训练模型,内置到这里的网络结构中,用于对脑波数据进行编码;Encoder Block:E...
【专利技术属性】
技术研发人员:焦良存,李亚楠,
申请(专利权)人:安徽七度生命科学集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。