当前位置: 首页 > 专利查询>中国科学院香港创新研究院人工智能与机器人创新中心有限公司专利>正文

手术辅助方法、装置、电子设备及存储介质制造方法及图纸

技术编号：42934636 阅读：19 留言：0更新日期：2024-10-11 15:56

本发明专利技术提供一种手术辅助方法、装置、电子设备及存储介质，属于人工智能技术领域，包括：获取手术文本和手术图片；将手术文本输入至文本编码器获取文本令牌，并将手术图片输入至视觉编码器获取视觉令牌；将视觉令牌输入至路由投影器，获取由路由编码器输出的图片抽象特征；将图片抽象特征与所述文本令牌进行对齐拼接后生成的拼接特征向量输入至手术大语言模型，获取由手术大语言模型输出的手术辅助信息。本发明专利技术为了实现优越的手术多模态理解，引入路由投影器来投影来对齐手术图片与手术大语言模型，可以准确理解外科医生的意图，并根据需求完成一系列手术理解任务，从而在文本分析和视觉任务中取得突出的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种手术辅助方法、装置、电子设备及存储介质。

技术介绍

1、手术干预对患者的健康护理至关重要，许多研究已经开发出先进的算法来帮助外科医生理解和决策，从而有助于提高患者安全和治疗效果。

2、其中，深度学习算法在许多方面已经进行了大量的探索以支持手术过程，例如监测手术过程，优化外科医生排班，增强团队协作，以及推进初级外科医生的培训等方面。

3、尽管上述应用取得了巨大进展，但这些深度学习算法是为单一的特定任务和场景开发的，在实际应用中需要人工组合不同的功能，从而限制了其适用性。

4、因此，人们期望拥有一种智能且多功能的手术助理，能够准确理解外科医生的意图，并相应地执行特定任务以支持手术过程。

技术实现思路

1、本专利技术提供一种手术辅助方法、装置、电子设备及存储介质，用以解决现有技术中采用单一的特定任务和场景开发的深度学习算法在辅助手术过程所存在的需要人工进行不同模型的选择及组合上，适用性不强的缺陷，可以准确理解外科医生的意图，并根据需求完成一系列手术理解任务。

2、第一方面，本专利技术提供一种手术辅助方法，包括以下步骤。

3、获取手术文本和手术图片。

4、将所述手术文本输入至文本编码器获取文本令牌，并将所述手术图片输入至视觉编码器获取视觉令牌。

5、将所述视觉令牌输入至路由投影器，获取由所述路由编码器输出的图片抽象特征。

6、将所述图片抽象特征与所述文本令牌进

7、所述路由投影器包括动态路由单元和多个投影器，所述动态路由单元根据所述视觉令牌激活至少一个投影器作为特征提取器，以利用所述特征提取器从所述视觉令牌中抽取出图像特征后，融合生成所述图片抽象特征。

8、根据本专利技术提供的一种手术辅助方法，任一所述投影器包括第一前向反馈神经网络和第二前向反馈神经网络，在所述第一前向反馈神经网络与所述和第二前向反馈神经网络之间设置有基于高斯误差函数的激活函数层；

9、所述视觉令牌经过所述第一前向反馈神经网络进行特征变换及特征提取后，生成第一中间特征表示；

10、所述第一中间特征表示经过所述激活函数层引入非线性特征后，生成第二中间特征表示；

11、所述第二中间特征表示经过所述第二前向反馈神经网络做进一步的特征变换及特征提取后，生成所述图片抽象特征。

12、根据本专利技术提供的一种手术辅助方法，被激活的所述投影器的数量k是预先设定的；所述动态路由单元根据所述视觉令牌激活至少一个投影器作为特征提取器，以利用所述特征提取器从所述视觉令牌中抽取出图像特征后，融合生成所述图片抽象特征，包括：

13、获取每个所述投影器作为特征提取器，对所述视觉令牌进行特征抽取所获取到的图像特征的得分；

14、激活所述得分最高的前k个投影器作为最终的特征提取器，以利用所述最终的特征提取器，从所述视觉令牌中抽取出图像特征后，融合生成所述图片抽象特征。

15、根据本专利技术提供的一种手术辅助方法，所述动态路由单元激活所述得分最高的前k个投影器作为最终的特征提取器，以利用所述最终的特征提取器，从所述视觉令牌中抽取出图像特征后，融合生成所述图片抽象特征，包括：

16、根据所述得分最高的前k个特征提取器的得分，计算每个所述最终的特征提取器从所述视觉令牌中抽取出图像特征的softmax得分，作为所述最终的特征提取器的权重；

17、根据每个所述最终的特征提取器从所述视觉令牌中抽取出的图像特征，以及每个所述最终的特征提取器权重，计算加权和作为所述图片抽象特征。

18、根据本专利技术提供的一种手术辅助方法，所述将所述手术大语言模型接收所述拼接特征向量，输出所述手术辅助信息的步骤，包括：

19、接收所述拼接特征向量，生成思维链范式答案，所述思维链范式答案包括待输出辅助信息和专家工具api；

20、若所述专家工具api为空，则将所述待输出辅助信息作为所述手术辅助信息输出；

21、若所述专家工具api为非空，则根据所述专家工具api从专家工具库中获取专家工具调用反馈；

22、将所述专家工具调用反馈和所述待输出辅助信息作为所述手术辅助信息输出。

23、根据本专利技术提供的一种手术辅助方法，在所述手术大语言模型获取所述专家工具调用反馈，且所述专家工具调用反馈包括文本内容的情况下，还包括：

24、将所述文本内容和所述待输出辅助信息转换为所述手术大语言模型的输入后，输入至所述手术大语言模型，以获取由其输出的所述手术辅助信息。

25、根据本专利技术提供的一种手术辅助方法，还包括对所述手术大语言模型进行训练，具体包括：

26、获取多个手术文本历史样本以及每个所述手术文本历史样本对应的辅助信息标签；

27、将所述手术文本历史样本作为所述手术大语言模型的输入，以根据所述手术大语言模型的输出结果与所述辅助信息标签之间的损失，对所述手术大语言模型进行预训练。

28、根据本专利技术提供的一种手术辅助方法，在完成对所述手术大语言模型的预训练之后，还包括：

29、冻结所述手术大语言模型；

30、利用预先采集的自然图文对样本和手术图文对样本，以及每个所述自然图文对样本和所述手术图文对样本的标注标签，对所述路由投影器进行预训练。

31、根据本专利技术提供的一种手术辅助方法，在完成对所述路由投影器的预训练之后，还包括：

32、解冻所述手术大语言模型；

33、利用预先采集的自然工具调用数据集和手术工具调用数据集，以及每个自然工具调用数据和每个手术工具调用数据相关的标注标签，对所述路由投影器和所述手术大语言模型进行综合训练

34、第二方面，本专利技术还提供一种手术辅助装置，包括数据采集单元、数据处理单元、特征提取单元和特征识别单元。

35、数据采集单元，用于获取手术文本和手术图片。

36、数据处理单元，用于将所述手术文本输入至文本编码器获取文本令牌，并将所述手术图片输入至视觉编码器获取视觉令牌。

37、特征提取单元，用于将所述视觉令牌输入至路由投影器，获取由所述路由编码器输出的图片抽象特征。

38、特征识别单元，用于将所述图片抽象特征与所述文本令牌进行对齐拼接后生成的拼接特征向量输入至手术大语言模型，获取由所述手术大语言模型输出的手术辅助信息。

39、所述路由投影器包括动态路由单元和多个投影器，所述动态路由单元根据所述视觉令牌激活至少一个投影器作为特征提取器，以利用所述特征提取器从所述视觉令牌中抽取出图像特征后，融合生成所述图片抽象特征。

40、第三方面，本专利技术提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，本文档来自技高网...

【技术保护点】

1.一种手术辅助方法，其特征在于，包括：

2.根据权利要求1所述的手术辅助方法，其特征在于，任一所述投影器包括第一前向反馈神经网络和第二前向反馈神经网络，在所述第一前向反馈神经网络与所述和第二前向反馈神经网络之间设置有基于高斯误差函数的激活函数层；

3.根据权利要求1-2任一项所述的手术辅助方法，其特征在于，被激活的所述投影器的数量K是预先设定的；

4.根据权利要求3所述的手术辅助方法，其特征在于，所述动态路由单元激活所述得分最高的前K个投影器作为最终的特征提取器，以利用所述最终的特征提取器，从所述视觉令牌中抽取出图像特征后，融合生成所述图片抽象特征，包括：

5.根据权利要求1所述的手术辅助方法，其特征在于，所述将所述手术大语言模型接收所述拼接特征向量，输出所述手术辅助信息的步骤，包括：

6.根据权利要求5所述的手术辅助方法，其特征在于，在所述手术大语言模型获取所述专家工具调用反馈，且所述专家工具调用反馈包括文本内容的情况下，还包括：

7.根据权利要求1所述的手术辅助方法，其特征在于，还包括对所述手术大语言模型进行训练，具体包括：

8.根据权利要求7所述的手术辅助方法，其特征在于，在完成对所述手术大语言模型的预训练之后，还包括：

9.根据权利要求8所述的手术辅助方法，其特征在于，在完成对所述路由投影器的预训练之后，还包括：

10.一种手术辅助装置，其特征在于，包括：

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述手术辅助方法。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述手术辅助方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述手术辅助方法。

...

【技术特征摘要】

1.一种手术辅助方法，其特征在于，包括：

3.根据权利要求1-2任一项所述的手术辅助方法，其特征在于，被激活的所述投影器的数量k是预先设定的；

4.根据权利要求3所述的手术辅助方法，其特征在于，所述动态路由单元激活所述得分最高的前k个投影器作为最终的特征提取器，以利用所述最终的特征提取器，从所述视觉令牌中抽取出图像特征后，融合生成所述图片抽象特征，包括：

5.根据权利要求1所述的手术辅助方法，其特征在于，所述将所述手术大语言模型接收所述拼接特征向量，输出所述手术辅助信息的步骤，包括：

6.根据权利要求5所述的手术辅助方法，其特征在于，在所述手术大语言模型获取所述专家工具调用反馈，且所述专家工具调用反馈包括文本内容的情...

【专利技术属性】
技术研发人员：陈阵，吴锦林，刘宏斌，王金桥，雷震，骆行健，
申请(专利权)人：中国科学院香港创新研究院人工智能与机器人创新中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人