System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及脑电数据处理领域,尤其涉及一种基于大脑eeg信号的高质量的3dmesh重建方法。
技术介绍
1、生成式人工智能技术作为当前人工智能领域的前沿技术之一,已经被广泛用于各类视觉合成任务中,并促进了2d和3d创作领域的研究呈爆炸式增长。稳定扩散模型(stablediffusion model,sd)凭借其强大的生成能力,以及ipadapter(text compatible imageprompt adapter for text-to-image diffusion models)模型对为aigc(人工智能生成内容)领域提供了一种高效且灵活的方法,使得用户可以更容易地利用预训练模型生成具有特定风格的图像,大大简化了图像生成的过程,共同推动了该领域下的文本到图像合成任务发展。imagen模型通过将两者进行有效结合,实现了高度逼真的文本到图像合成,这标志着在图像质量和语言理解方面的重大进展;此外,dall-e 2和muse等模型的提出,进一步丰富了文本到图像合成的技术手段和应用场景。dall-e 2通过其创新的架构和训练策略,展示了在理解和生成多模态内容方面的卓越能力。
2、随着脑-机接口(brain-computer interface)技术的不断发展,大量研究开始尝试探索如何将抽象的大脑信号具象化为可理解的视觉内容。brain2image尝试通过结合长短期记忆网络和生成对抗网络技术,从eeg信号中生成观察者所见图像;ye等人提出一种自监督的跨模态检索方法,通过最大化eeg编码和视觉刺激之间的互信息,来恢复e
3、大型重建模型(large reconstruction models,简称lrm)是一种用于从二维图像到三维模型创建的前馈式图像到三维模型生成技术。这些模型得益于大规模三维数据集的可用性,使得它们能够训练出高度泛化的重建模型。lrm展示了基于变换器(transformer)的主干网络可以有效映射图像令牌到隐式的三维三平面,通过多视图监督进行训练。instant3d(efficient 3d mesh generation from a single image with sparse-viewlarge reconstruction models)进一步扩展了lrm到稀疏视图输入,显著提升了重建质量。通过结合多视图扩散模型,instant3d能够实现高度泛化和高质量的单图像到三维模型生成。受到instant3d的启发,lgm(large multi-view gaussian model for high-resolution 3d content creation)和grm(single image to 3d textured mesh withconvolutional reconstruction model)替换了三平面神经辐射场(nerf)表示,采用三维高斯分布来享受其优越的渲染效率,并避免了内存密集型的体积渲染过程。然而,高斯分布在显式几何建模和高质量表面提取方面存在不足。鉴于神经网格优化方法的成功,mvd2(efficient multiview 3d reconstruction for multiview diffusion)和crm等并行工作选择直接在网格表示上进行优化,以实现高效的训练和高质量的几何及纹理建模。
技术实现思路
1、有鉴于此,本专利技术提供了一种基于大脑eeg信号的高质量的3d mesh重建方法,所述重建方法将eeg信号的关键特征编码作为指导,结合2d图像生成模型和3d mesh重建模块的共同作用下,重建出与eeg信号所对应的3d mesh,最后通过渲染得到最终结果。将这些脑信号转换为3d图像的研究不仅在技术上更具有挑战性,而且在理论和应用层面上都具有开创性。
2、本专利技术提供的方法将eeg信号通过时域编码器和频率编码器,分别得到时域特征和频率特征。其中时域编码器采用时间掩码信号建模技术tmsm(temporal masked signalmodeling),可以从大规模噪声eeg信号中提取有意义的上下文知识,而频率编码器则是采用fast fourier transform(fft),首先将eeg信号从时域信号转换为频率信号,为了能够更好的获取信号在频率上的分布,采用lstm(long short-term memory)来提取与频率相关的特征。将时频嵌入输入到语义对齐网络,通过ipadapter对时频嵌入加入语义信息,作为2d图像生成模块的引导条件。与此同时,时频编码器将与eeg分类器进行微调,确保能够对eeg类别信息的准确获得,从而指导生成与eeg信号所匹配的2d图像。2d图像生成模块由两个阶段组成,第一个阶段将使用通过ipadapter进行语义对齐的时频嵌入通过交叉注意力机制指导stable diffusion生成带有一定语义信息的粗略图像;第二阶段通过使用第一阶段所生成的粗略图像为基础,并且使用由该eeg信号经过eeg分类器所得到的类别信息为条件,从而得到更准确的2d图像;将所产生的2d图像作为输入,输入到经过微调后的zero123++中的多视角生成模块,从而得到6张多视角白背景的图像,为后续3d mesh重建提供指导信息;最后将zero123++所产生的6个图像作为重建模型的输入,并固定它们的相机位姿,通过重建模型的vit encoder得到图像的token,然后通过triplane decoder得到triplane;最后为了提高重建质量,将triplane通过可微分等值面提取模块flexicubes采用全分辨率的图像和额外的几何信息进行监督,从而得到更加平滑的网格输出,最后通过渲染得到最终的3d对象。
3、与现有技术相比,本专利技术具有以下有益效果:
4、1、eeg编码器分为时域编码器和频域编码器,分别从eeg信号中的时域和频域提取各自所具有的特征。其中时域编码器采用的是时间掩码信号建模技术(tmsm)。这一办法使其不依赖有限的eeg图像配对样本,而是利用大量的eeg数据,通过预测基于上下文线索的缺失标记,来训练编码器。这种预训练策略不仅增强了模型对个体差异的适应性,而且通过时间域内的信号重建,使时域编码器能够深入理解不同人群和各种大脑活动下的eeg数据。而频域编码器则是使用快速傅里叶变换(fft),首先将eeg信号从时域转换到频域。为了更好地捕捉信号的频率分布,采用长短期记忆(lstm)模型来提取与频率相关的特征。lstm模型拥有记忆单元(单元状态),能够保留本文档来自技高网...
【技术保护点】
1.一种基于大脑EEG信号的高质量的3D Mesh重建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,在步骤1中,具体包括:
3.根据权利要求2所述的方法,其特征在于,步骤2包括:
4.根据权利要求3所述的方法,其特征在于,步骤4具体包括:
5.根据权利要求4所述的方法,其特征在于,步骤8包括:
6.根据权利要求5所述的方法,其特征在于,步骤10包括:
【技术特征摘要】
1.一种基于大脑eeg信号的高质量的3d mesh重建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,在步骤1中,具体包括:
3.根据权利要求2所述的方法,其特征在于,步...
【专利技术属性】
技术研发人员:符颖,陈桥宇,郜东瑞,袁霞,吴锡,
申请(专利权)人:成都信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。