基于多模型融合的可解释图像文本化描述方法技术

技术编号：42922879 阅读：19 留言：0更新日期：2024-10-11 15:49

本发明专利技术公开了基于多模型融合的可解释图像文本化描述方法，输入的图像进行特征提取，之后将提取出的图像特征输入预测模型，最后得出预测结果。本发明专利技术在数据集方面，通过向ChatGPT输入严格的提示来生成相应的图片，形成了一个高质量数据集。在模型方面，应用了添加解析注意力机制的CLIP模型来对输入的图像进行高级特征的提取，利用其强大的跨模态理解能力，为后续的任务提供支持。对三个模型分别应用LoRA微调技术，使模型能够更灵活地适应不同区域的特征关系，并在局部区域灵活调整注意力，从而减轻模型的计算负担，最后通过对三个模型预测结果的集成融合，提高了预测的精确度。另外，对模型的不同部分进行模块化设计，提高了模型的可扩展性和灵活性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉和自然语言处理方法，具体涉及基于多模型融合的可解释图像文本化描述方法。

技术介绍

1、在计算机视觉和自然语言处理领域，图像转文本(image2text)技术旨在理解和描述图像内容，对于人类来说，可以在几分钟内迅速用几句话总结出一个复杂的图像场景，但对于计算机来说，这个过程却要困难许多。这个领域面临的主要问题包括图像内容的复杂性、多样性以及如何准确、自然地将视觉信息转化为文字描述。现有技术难以全面理解图像中的细节、情感和上下文信息，尤其是在处理抽象概念、隐喻或复杂场景时。此外，目前的技术在解释模型各层的决策路径、权重分配和激活函数等内部运作机制方面存在局限，这限制了对模型层的深入理解。在机器学习领域，精确地理解这些内部结构对于增强模型的可信度和提高决策透明度是至关重要的。依赖于‘黑箱’模型做出关键决策可能带来风险，尤其是在可能影响人们生活的应用场景中。因此，研发能够提供更高层次可解释性的机器学习模型，以便于更好地审查和验证其内部运作机制，显得尤为重要。另外，它的泛化能力、实时处理能力和准确性仍有待提高，以满足不断增长的应用需求，如辅助视障人士、智能内容创作等，这些对模型识别的精度和效率均有较高的要求。

2、现有的处理模型通过提取图像特征并将其转换为文字描述来工作。虽然取得了一定的进展，但现有方法存在几个主要不足：首先，模型对于训练数据的依赖性强，目前通用的数据集是microsoft在2014年开发维护的coco数据集，数据集存在着多样性不足，即它的图像可能偏向于某些地区(例如，北美)，而忽视了其

3、根据当前技术状况，现有的image2text模型在泛化能力方面显示出一定的局限性。这些模型通常在训练数据集上表现良好，但当应用于训练数据之外的新数据时，它们的性能往往会受到影响，导致它们无法有效地处理和识别在训练过程中未遇到的图像类型或场景。此外，由于模型消耗的计算资源比较多，导致模型识别的实时性有所欠缺。在当前的研究领域中，广泛使用的数据集如microsoft coco，尽管在历史上有其重要价值，但它们的数据构成较为陈旧，缺乏对最新社会环境和技术发展的反映。这种数据时效性的不足导致了在快速变化的现代社会背景下的应用局限性。由于模型在理解和解释图像中的复杂元素、细节层次和抽象概念时存在限制，现有技术在生成文本描述时可能会缺乏准确性，特别是在描述复杂或抽象图像内容时。从而导致信息的遗漏或误解。此外，现有模型由于模型架构的限制，在生成文本描述时往往缺乏多样性。这导致模型在应对多样化和不常见的图像内容时，可能无法生成富有创造性和适应性强的文本描述。

技术实现思路

1、本专利技术的目的是提供基于多模型融合的可解释图像文本化描述方法，解决了现有计算资源需求限制的问题。

2、本专利技术所采用的技术方案是，基于多模型融合的可解释图像文本化描述方法，输入的图像进行特征提取，之后将提取出的图像特征输入预测模型，最后得出预测结果。

3、本专利技术的特点还在于：

4、具体按照以下步骤实施：

5、步骤1、将预处理的数据集进行初始化；

6、步骤2、模型准备；

7、步骤3、预测器实例化；

8、步骤4、对预测结果进行集成融合。

9、步骤1中使用diffusiondb_2m数据集，并优先选择了与图像描述任务相关的数据集，移除相似度得分高于0.8的重复数据，再通过向chatgpt输入高质量、多样性的提示，来生成更加符合规范的图像，让输入的提示和生成的图像一一对应，并根据模型训练后的结果动态调整输入的提示，最后形成一个高质量提示的数据集。

10、步骤2中定义模型的架构，将模型添加自定义的注意力机制，定义了两个pytorch模块。

11、步骤3中预测器加载训练好的模型，包括读取存储在特定路径的模型文件，并将其加载到内存中；模型加载完毕后，预测器还将加载待预测的数据集，包含从数据库、文件系统或网络源读取数据，并进行必要的预处理，以确保数据格式与训练时的格式一致；然后数据被预测器通过模型进行前向传递，在此过程中，数据穿过模型的各个层，模型根据其已学习的特征和规律来分析和处理数据。前向传递完成后，模型输出原始的预测结果。

12、本专利技术的有益效果是：

13、本专利技术基于多模型融合的可解释图像文本化描述方法，在数据集方面，通过向chatgpt输入严格的提示来生成相应的图片，形成了一个高质量数据集。在模型方面，应用了添加解析注意力机制的clip模型来对输入的图像进行高级特征的提取，利用其强大的跨模态理解能力，为后续的任务提供支持。对三个模型分别应用lora微调技术，使模型能够更灵活地适应不同区域的特征关系，并在局部区域灵活调整注意力，从而减轻模型的计算负担，最后通过对三个模型预测结果的集成融合，提高了预测的精确度。另外，对模型的不同部分进行模块化设计，提高了模型的可扩展性和灵活性。

本文档来自技高网...

【技术保护点】

1.基于多模型融合的可解释图像文本化描述方法，其特征在于，输入的图像进行特征提取，之后将提取出的图像特征输入预测模型，最后得出预测结果。

2.根据权利要求1所述的基于多模型融合的可解释图像文本化描述方法，其特征在于，具体按照以下步骤实施：

3.根据权利要求2所述的基于多模型融合的可解释图像文本化描述方法，其特征在于，所述步骤1中使用DiffusionDB_2M数据集，并优先选择了与图像描述任务相关的数据集，移除相似度得分高于0.8的重复数据，再通过向ChatGPT输入高质量、多样性的提示，来生成更加符合规范的图像，让输入的提示和生成的图像一一对应，并根据模型训练后的结果动态调整输入的提示，最后形成一个高质量提示的数据集。

4.根据权利要求2所述的基于多模型融合的可解释图像文本化描述方法，其特征在于，所述步骤2中定义模型的架构，将模型添加自定义的注意力机制，定义了两个PyTorch模块。

5.根据权利要求2所述的基于多模型融合的可解释图像文本化描述方法，其特征在于，所述步骤3中预测器加载训练好的模型，包括读取存储在特定路径的模型文件，

...

【技术特征摘要】

1.基于多模型融合的可解释图像文本化描述方法，其特征在于，输入的图像进行特征提取，之后将提取出的图像特征输入预测模型，最后得出预测结果。

2.根据权利要求1所述的基于多模型融合的可解释图像文本化描述方法，其特征在于，具体按照以下步骤实施：

3.根据权利要求2所述的基于多模型融合的可解释图像文本化描述方法，其特征在于，所述步骤1中使用diffusiondb_2m数据集，并优先选择了与图像描述任务相关的数据集，移除相似度得分高于0.8的重复数据，再通过向chatgpt输入高质量、多样性的提示，来生成更加符合规范的图像，让输入的提示和生成的图像一一对应，并根据模型训练后的结果动态调整输入的提示，最后形成一个高质量提示的数据集。

【专利技术属性】
技术研发人员：徐博，王盼，唐浩，高锦雄，于明天，
申请(专利权)人：海南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人