用于自然图像引发的人脑活动的多任务同步解码方法技术

技术编号：41362453 阅读：3 留言：0更新日期：2024-05-20 10:11

本发明专利技术公开了一种用于自然图像引发的人脑活动的多任务同步解码方法，属于生物医学图像的多任务解码技术领域。本发明专利技术基于观看大量自然图像下的功能磁共振信号数据建立基于多任务视觉信息脑解码模型，包括：视觉编码模块，将视觉相关区域体素信号编码到隐特征空间；多任务编码模块，获取包括视觉信息特征向量、类别信息特征向量和语义解码任务的特征向量的多任务特征向量；类别解码模块，获取预测的类别的概率分布；语义解码模块，预测语义标签的概率分布；语言解码模块，来捕捉文本中的深层次结构和语义关系，从而生成更准确的连续描述性文本。本发明专利技术解码出的类别信息和语义标签的准确率高，并且解码出的图像描述能指向其主要元素或事件。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于生物医学图像的多任务解码(包括视觉场景类别、语义和语言)，具体涉及一种用于自然图像引发的人脑活动的多任务同步解码方法。

技术介绍

1、自2005年起，kamitani和tong等人开始深入研究视觉信息的解码方法。这些研究者们广泛地对视觉信息解码进行了探索，涵盖了从大脑中解码的初级、中级、高级视觉特征到高级认知活动等各个层次的信息，并获得了不少重要成果。

2、在初级视觉特征的解码研究中，2005年，haynes等人研究了条纹的朝向解码；2015年，cossell等人探讨了空间频率解码；2023年，schrantee等人针对对比度解码进行了研究；而2001年，geisler等人则聚焦于运动方向的解码。

3、在中级视觉特征的解码方面，2012年，pitts等人研究了轮廓的解码。而高级视觉特征的解码包括2017年，horikawa等人对物体类别的解码研究；2013年，stansbury探索了语义标签解码；以及2021年，huang等人对描述性语言的解码进行了探讨。此外，高级认知活动的解码中，2019年，benedek等人研究了注意力解码；2017年，horikawa等人钻研了想象力解码；2013年，horikawa等人又对梦境解码进行了研究。

4、上述研究主要集中于单一任务的大脑信息解码，并可以大致分为主要类别解码、多语义标签解码、语言解码及重构解码等类别。尽管单任务解码常能获得较好的效果，但它局限于单一任务，未能充分利用多任务联合解码所带来的效率与广泛应用的潜在优势。

5、

6、然而，在大脑信息解码的研究中，单一的解码模型往往只针对特定的任务。要实现多层次的解码，就需要构建多个模型。这导致了模型之间的关联性和一致性都较为不足，进而阻碍了它们在脑机接口或类脑芯片等实际应用中的推广。

技术实现思路

1、本专利技术针对现有技术中大脑信息解码模型单一任务解码的局限性，为解决模型应用范围受限以及为各种任务单独设计和管理模型难度增大的问题，提出了一种用于自然图像引发的人脑活动的多任务同步解码方法。

2、本专利技术采用的技术方案为：

3、用于自然图像引发的人脑活动的多任务同步解码方法，在包括视觉编码器e1、多任务编码器e2、类别解码器d1、语义解码器d2和语言解码器d3的多任务视觉编解码模型(即基于编解码框架的多任务视觉信息脑解码模型)中执行下列步骤：

4、步骤1，采用视觉编码器e1将测试者观看自然图像时基于磁共振成像获取的测量bold响应信号的fmri图像数据中获取的图像信息嵌入到隐特征空间，获取若干个不同视觉区的视觉信息特征向量；

5、步骤2，采用多任务编码器e2对视觉信息特征向量、类别信息特征向量和语义解码任务的特征向量进行特征拼接后再提取多任务特征；其中，类别信息特征向量是指测试者观看的自然图像的图像类别关键词，语义解码任务是指自然图像的语义标签；

6、步骤3，采用分类解码器d1对多任务特征进行自然图像类别的分类识别，输出自然图像各图像类别的概率；

7、步骤4，采用语义解码器d2对多任务视觉特征向量进行自然图像的语义标签预测，输出自然图像的各语义标签的概率；

8、步骤5，采用语言解码器d3对多任务视觉特征向量进行自然图像的文本描述词预测，以生成自然图像的连续的文本描述。

9、进一步的，步骤1中，视觉编码器e1的编码方法包括：

10、步骤1.1：对输入的bold响应信号和fmri图像数据进行感兴趣区域(region ofinterest，roi)的选择，每个感兴趣区域被视为一个视觉区域(即每个视觉区域代表一个特定的脑部活动区域)，并提取每视觉区域在给定时间点的活动信号(bold响应信号和fmri图像数据)，得到若干个视觉区信号数据；其中，fmri图像数据是通过将bold信号测量映射到三维空间中而生成的。这些图像可以用于可视化大脑在不同任务或条件下的活动分布。研究人员可以使用fmri图像来识别活跃区域、分析不同脑区之间的连接、研究脑网络等；

11、对来自若干不同视觉区信号数据基于线性插值方法进行上或下采样操作，将数据维度统一到嵌入空间维度，再将得到的不同视觉区的信号根据视觉区编号排序，组成t×m的视觉区特征序列(v1,v2,...,vt)，其中，t表示选择的视觉区数量，m表示每个视觉区的特征向量维度；

12、步骤1.2：将视觉区特征序列(v1,v2,...,vt)送入双向门控循环单元(bigru)进行处理，得到每一个时间点上的更新后的m维视觉信息特征向量(f1,f2,...,ft)。

13、进一步的，步骤2中，多任务编码器e2的编码方法包括：

14、步骤2.1：把类别信息和语义解码任务的信息分别嵌入到两个不同的向量e[cls]和e[smt]中；其中，e[cls]表示类别信息特征向量，e[smt]表示语义解码任务的特征向量；

15、步骤2.2：将e[cls]向量和e[smt]向量与多维视觉信息特征向量(f1,f2,...,ft)进行拼接，形成一个维度为(t+2)×m的综合特征向量；

16、步骤2.3：在步骤2.2获得的新特征向量中添加位置嵌入(即特征向量的位置索引，具体的嵌入位置可自行定义，主要用于确定视觉信息特征向量、类别信息特征向量和语义解码任务的特征向量所在的位置)，有助于让模型学习到序列中的位置依赖关系，从而得到具有位置编码的视觉特征向量；

17、步骤2.4：将步骤2.3获得的具有位置编码的视觉特征向量送入语言表示模型bert中，基于其输出得到(t+2)×m维的多任务视觉特征向量(z1,z2,...,zt+2)。

18、进一步的，步骤3中，分类解码器d1的解码方式包括：

19、步骤3.1：采用多层感知机(multi-layer perceptron，mlp)构建两个隐藏层；

20、步骤3.2：对步骤3.1构建的隐藏层的内部神经元均使用激活函数leaky-relu和归一化技术layer normalization，以有助于提高模型的泛化能力，使网络表现更可靠和稳定；<本文档来自技高网...

【技术保护点】

1.用于自然图像引发的人脑活动的多任务同步解码方法，其特征在于，在包括视觉编码器E1、多任务编码器E2、类别解码器D1、语义解码器D2和语言解码器D3的多任务视觉编解码模型中执行下列步骤：

2.如权利要求1所述的方法，其特征在于，步骤1中，视觉编码器E1的编码方法包括：

3.如权利要求2所述的方法，其特征在于，所述双向门控循环单元的步长为T，层数为1，输入层大小为M维，输出层大小为M维。

4.如权利要求1所述的方法，其特征在于，步骤2中，多任务编码器E2的编码方法包括：

5.如权利要求1所述的方法，其特征在于，步骤3中，分类解码器D1的解码方式包括：

6.如权利要求1所述的方法，其特征在于，步骤4中，语义解码器D2的解码方式包括：

7.如权利要求1所述的方法，其特征在于，步骤5中，语言解码器D3的解码方式包括：

8.如权利要求6所述的方法，其特征在于，所述步骤5中的掩码多头注意力机制层与多头注意力机制层采用的多头注意力模块的head数量为8。

9.如权利要求1所述的方法，其特征在于，所

10.如权利要求9所述的方法，其特征在于，所述步骤6.4具体包括：

...

【技术特征摘要】

1.用于自然图像引发的人脑活动的多任务同步解码方法，其特征在于，在包括视觉编码器e1、多任务编码器e2、类别解码器d1、语义解码器d2和语言解码器d3的多任务视觉编解码模型中执行下列步骤：

2.如权利要求1所述的方法，其特征在于，步骤1中，视觉编码器e1的编码方法包括：

3.如权利要求2所述的方法，其特征在于，所述双向门控循环单元的步长为t，层数为1，输入层大小为m维，输出层大小为m维。

4.如权利要求1所述的方法，其特征在于，步骤2中，多任务编码器e2的编码方法包括：

5.如权利要求1所述的方法，其特...

【专利技术属性】
技术研发人员：黄伟，秦帆，李恒江，杨鹏飞，唐颖，吴狄蔚，赵宇浩，朱宇成，任伟，颜红梅，陈华富，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人