基于多模态信息融合的违规行为检测方法、装置及终端制造方法及图纸

技术编号：43397666 阅读：26 留言：0更新日期：2024-11-19 18:14

本发明专利技术公开了一种基于多模态信息融合的违规行为检测方法、装置及终端，方法包括：采集客服与客户聊天过程的聊天数据，聊天内容包括聊天文字信息和聊天长图片；基于滑动窗口对聊天长图片进行切片操作，得到图片切片数据；基于聊天文字信息、聊天长图片及图片切片数据生成训练样本，基于训练样本对人工智能模型进行训练，得到多模态信息融合模型，获取待检测的客服聊天内容，将待检测的客服聊天内容输入多模态信息融合模型，获取多模态信息融合模型输出的违规行为检测结果。本发明专利技术实施例引入了大模型和多分辨和多切片图文信息融合，从特征空间入手融合了一种多级图文特征融合，提高了客服违规行为检测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及金融科技，尤其涉及一种基于多模态信息融合的违规行为检测方法、装置及终端。

技术介绍

1、目前，大型多模态模型(large multimodal model,lmms)在处理图像和文本数据方面取得了显著进展，尤其在图像描述和视觉问答等任务中表现突出，引起了学术界的广泛关注。然而，在金融场景中应用这些技术时仍然存在一些显著的挑战和不足。

2、现有的解决方案包括使用预训练视觉模块以支持更大的输入分辨率，如llava1.5，并通过课程学习逐步增加训练过程中的分辨率，例如qwen-vl、pali-3和pali-x。尽管这些方法在一定程度上改善了模型的性能，但它们对训练资源的需求很高，并且在处理更大的图像尺寸时仍面临挑战。

3、特别是在金融领域，需要处理高分辨率图像并精确捕捉细微的视觉细节，以进行准确的质检和分析。现有技术在这些方面的表现仍未能完全满足金融行业的需求，缺乏高效处理多模态数据的系统和方法。因此，针对金融场景开发更为高效和精确的多模态训练推理方法成为当前的紧迫需求，以支持金融安全和风险管理等关键任务。

4、综上所述，尽管现有技术在多模态模型的发展和应用方面取得了一定进展，但在处理金融场景中，由于现有数据集中的图像描述通常不够详细，无法充分提升多模态模型对图像-文本关系的理解能力，限制了多模态模型在处理高要求的金融场景中的应用效果，违规行为检测准确率较低。

5、因此，现有技术还有待于改进和发展。

技术实现思路

1、鉴于上述

2、本专利技术的技术方案如下：

3、本专利技术第一实施例提供了一种基于多模态信息融合的违规行为检测方法，所述方法包括：

4、采集客服与客户聊天过程的聊天数据，所述聊天数据为由客服发出的聊天内容，所述聊天内容包括聊天文字信息和聊天长图片；

5、基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片数据；

6、基于所述聊天文字信息、所述聊天长图片及所述图片切片数据生成训练样本，基于所述训练样本对人工智能模型进行训练，得到多模态信息融合模型，所述人工智能模型包括多模态信息融合处理模块及输出模块；

7、获取待检测的客服聊天内容，将所述待检测的客服聊天内容输入所述多模态信息融合模型，获取所述多模态信息融合模型输出的违规行为检测结果。

8、进一步地，所述采集客服与客户聊天过程的聊天数据，包括：

9、采集客服与客户聊天过程中的客服发出的聊天内容，所述客服聊天内容包括正常的聊天内容及违规的聊天内容；

10、对所述客服聊天内容进行标注，得到标注后的客服聊天内容；

11、对所述标注后的客服聊天内容进行预处理，得到预处理后的客服聊天内容。

12、进一步地，所述基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片数据，包括：

13、将所述聊天文字内容与所述聊天长图片进行一一对应，得到所述聊天文字内容与所述聊天长图片的对应信息；

14、基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片；

15、基于所述对应信息，获取所述图片切片对应的聊天文字内容，将对应的聊天文字内容进行截断，得到截断文字内容；

16、基于所述图片切片及截断文本内容，得到图片切片数据。

17、进一步地，所述基于所述聊天文字信息、所述聊天长图片及所述图片切片数据生成训练样本，包括：

18、将所述聊天文字内容输入文本特征提取模块，得到聊天文本特征；

19、将所述聊天长图片输入图片特征提取模块，得到聊天长图片特征；

20、将所述图片切片数据输入图片切片数据提取模块，得到图片切片特征；

21、基于所述聊天文本特征、聊天长图片特征、图片切片文本特征得到训练样本。

22、进一步地，所述基于所述训练样本对人工智能模型进行训练，得到多模态信息融合模型，包括：

23、基于所述训练样本对人工智能模型进行训练，得到初始多模态信息融合模型；

24、采集用于测试的聊天样本数据，基于所述聊天样本数据对所述初始多模态信息融合模型进行测试；

25、若测试成功，则将初始多模态信息融合模型作为最终的多模态信息融合模型；

26、若测试失败，则对初始多模态信息融合模型的网络参数进行调整，直到初始多模态信息融合模型测试成功，将测试成功时的初始多模态信息融合模型作为多模态信息融合模型。

27、进一步地，所述获取待检测的客服聊天内容，将所述待检测的客服聊天内容输入所述多模态信息融合模型，包括：

28、获取待检测的客服聊天内容，对所述检测的客服聊天内容进行预处理，得到初始客服聊天内容；

29、对所述初始客服聊天内容进行特征提取，得到待检测的客服聊天特征；

30、将所述待检测的客服聊天特征输入所述多模态信息融合模型。

31、进一步地，所述获取所述多模态信息融合模型输出的违规行为结果，包括：

32、获取所述多模态信息融合模型输出的违规行为类型、违规行为分数及违规识别结果。

33、本专利技术的另一实施例提供了一种基于多模态信息融合的违规行为检测装置，装置包括：

34、数据采集模块，用于采集客服与客户聊天过程的聊天数据，所述聊天数据为由客服发出的聊天内容，所述聊天内容包括聊天文字信息和聊天长图片；

35、图片切片模块，用于基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片数据；

36、模型训练模块，用于基于所述聊天文字信息、所述聊天长图片及所述图片切片数据生成训练样本，基于所述训练样本对人工智能模型进行训练，得到多模态信息融合模型，所述人工智能模型包括多模态信息融合处理模块及输出模块；

37、行为识别模块，用于获取待检测的客服聊天内容，将所述待检测的客服聊天内容输入所述多模态信息融合模型，获取所述多模态信息融合模型输出的违规行为检测结果。

38、本专利技术的另一实施例提供了一种终端，所述终端包括至少一个处理器；以及，

39、与所述至少一个处理器通信连接的存储器；其中，

40、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于多模态信息融合的违规行为检测方法。

41、本专利技术的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述本文档来自技高网...

【技术保护点】

1.一种基于多模态信息融合的违规行为检测方法,其特征在于,所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采集客服与客户聊天过程的聊天数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述聊天文字信息、所述聊天长图片及所述图片切片数据生成训练样本，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述训练样本对人工智能模型进行训练，得到多模态信息融合模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述获取待检测的客服聊天内容，将所述待检测的客服聊天内容输入所述多模态信息融合模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述获取所述多模态信息融合模型输出的违规行为结果，包括：

8.一种基于多模态信息融合的违规行为检测装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，所述终端包括至少一个处理器；以及，

...

【技术特征摘要】

1.一种基于多模态信息融合的违规行为检测方法,其特征在于,所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采集客服与客户聊天过程的聊天数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述聊天文字信息、所述聊天长图片及所述图片切片数据生成训练样本，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述训练样本对人工智能模型进行训练，得到多模态信息融合模型，包括：

6.根据权利要求5所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：洪振厚，王健宗，瞿晓阳，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人