System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态融合的直播间内容识别与智能分发方法及系统技术方案_技高网

基于多模态融合的直播间内容识别与智能分发方法及系统技术方案

技术编号:44184525 阅读:0 留言:0更新日期:2025-02-06 18:26
本发明专利技术提供基于多模态融合的直播间内容识别与智能分发方法及系统,涉及机器学习技术领域,包括采集直播间视频、音频和弹幕数据,分别进行特征提取;利用多模态特征融合模型,对多模态特征进行跨模态交互、特征对齐及特征重构,生成跨模态融合特征;并基于预训练的内容分类模型进行内容识别,得到类别标签和时序特征。进一步,构建直播间内容画像及关联网络,并结合用户历史观看行为数据和深度强化学习模型,生成直播间实时评分,动态调整直播间展示权重及推送策略。本发明专利技术通过多模态数据融合及深度强化学习,实现了直播间内容的精准识别和个性化推荐,有效提升用户体验和平台运营效率。

【技术实现步骤摘要】

本专利技术涉及机器学习技术,尤其涉及基于多模态融合的直播间内容识别与智能分发方法及系统


技术介绍

1、传统的直播间内容识别方法主要依赖于人工审核或简单的关键词匹配,效率低下且准确率不高。而传统的直播间分发方法通常基于简单的规则或协同过滤算法,难以捕捉用户复杂多变的兴趣偏好,导致推荐结果不够精准。现有技术主要存在以下缺陷和不足:

2、多模态信息融合不足:传统的直播间内容分析方法通常只关注单一模态信息,例如仅分析视频画面或音频内容,忽略了不同模态信息之间的互补性和关联性,导致内容理解不够全面和准确。

3、内容识别精度有限:现有的内容识别方法大多基于简单的特征提取和分类模型,难以处理复杂的直播场景和内容,导致识别精度有限,尤其是在处理多主题、内容快速变化的直播间时效果不佳。

4、分发效率和个性化程度不足:传统的推荐算法难以有效捕捉用户实时兴趣和行为变化,无法根据用户观看历史、互动行为和停留时长等动态数据进行个性化推荐,导致分发效率和用户满意度不足。


技术实现思路

1、本专利技术实施例提供基于多模态融合的直播间内容识别与智能分发方法及系统,能够解决现有技术中的问题。

2、本专利技术实施例的第一方面,

3、提供基于多模态融合的直播间内容识别与智能分发方法,包括:

4、采集直播间的视频流、音频流和弹幕数据;对视频流的分辨率与帧率进行实时监测,当检测到视频质量异常时触发备用编码器进行画质修复后通过卷积神经网络进行关键帧处理得到视频特征向量;对音频流的信噪比进行检测,当检测到音频质量异常时触发降噪处理后通过声学特征提取网络获取音频特征向量;对弹幕数据进行敏感词过滤后通过自然语言处理模型进行分词及语义理解得到文本特征向量;

5、将包含视频特征向量、音频特征向量和文本特征向量的多模态初始特征数据输入至预设的多模态特征融合模型,所述多模态特征融合模型采用注意力机制对视频特征向量、音频特征向量和文本特征向量进行跨模态交互及特征对齐,在特征融合过程中,当检测到某一模态数据异常缺失时,通过其他模态数据的特征补偿机制进行特征重构,生成跨模态融合特征;通过预训练的内容分类模型对所述跨模态融合特征进行多维度内容识别,得到直播间内容的类别标签及时序特征;

6、基于所述类别标签及时序特征构建直播间的内容画像,并基于知识图谱构建直播间内容之间的关联网络,采用图神经网络对具有相似主题特征的直播间进行聚类分组得到内容组别信息;将所述内容画像、所述关联网络及所述内容组别信息结合用户历史观看行为数据输入至深度强化学习模型,所述深度强化学习模型基于用户实时互动行为和停留时长数据进行在线更新,生成直播间的实时评分结果,根据所述实时评分结果动态调整不同类型直播间的展示权重及推送策略。

7、在一种可选的实施方式中,

8、将包含视频特征向量、音频特征向量和文本特征向量的多模态初始特征数据输入至预设的多模态特征融合模型,所述多模态特征融合模型采用注意力机制对视频特征向量、音频特征向量和文本特征向量进行跨模态交互及特征对齐,在特征融合过程中,当检测到某一模态数据异常缺失时,通过其他模态数据的特征补偿机制进行特征重构,生成跨模态融合特征的步骤包括:

9、对多模态初始特征数据进行维度统一化处理,包括:将所述视频特征向量通过全连接层、将所述音频特征向量通过双层感知机、将所述文本特征向量通过映射层分别映射至统一维度的特征空间,对映射后的特征进行正则化处理得到预处理特征;

10、在多模态特征融合模型中对所述预处理特征进行跨模态交互,包括:对统一维度后的特征分别通过三组独立的线性投影层进行特征变换,每组线性投影层包含用于生成跨模态查询向量的查询矩阵、用于生成键向量的键矩阵和用于生成值向量的值矩阵,所述查询矩阵、键矩阵和值矩阵采用服从均匀分布的xavier初始化方法进行初始化;将所述预处理特征并行分配至多个注意力头,每个注意力头利用对应的跨模态查询向量和键向量计算模态间注意力分数并通过softmax函数得到模态融合注意力权重,将所述模态融合注意力权重与对应的值向量进行矩阵乘法得到注意力头的输出特征,对所述输出特征应用随机失活操作;将所有注意力头的输出特征拼接后通过多层堆叠的注意力模块处理得到交互特征;

11、采用动态规划算法对所述交互特征进行时序对齐,将所述交互特征按时间维度组织形成特征序列,构建特征序列的距离矩阵,基于所述距离矩阵计算特征序列的最小对齐代价,对时序对齐后的交互特征通过门控机制进行自适应融合得到跨模态融合特征;

12、在特征融合过程中检测模态缺失情况,当检测到模态缺失时,采用条件变分自编码器对缺失特征进行重构,所述条件变分自编码器的编码器将已有模态特征编码为隐变量,解码器基于所述隐变量对缺失特征进行重构。

13、在一种可选的实施方式中,

14、采用动态规划算法对所述交互特征进行时序对齐,将所述交互特征按时间维度组织形成特征序列,构建特征序列的距离矩阵,基于所述距离矩阵计算特征序列的最小对齐代价,对时序对齐后的交互特征通过门控机制进行自适应融合得到跨模态融合特征的步骤包括:

15、计算交互特征在相邻时间步的互相关系数,构建时序相关性矩阵,所述时序相关性矩阵中的每个元素表征通过余弦相似度计算两个对应时间步交互特征之间的关联程度;

16、采用动态时间规整算法构建特征序列的距离矩阵,所述动态时间规整算法通过递归方式计算两个特征序列之间的最小累积距离,并引入带宽约束限制对齐路径的搜索范围,所述带宽约束的范围根据特征序列长度确定,所述距离矩阵的每个元素表征特征序列间的欧氏距离;

17、基于所述距离矩阵,采用动态规划算法求解最优对齐路径,所述动态规划算法通过构建状态转移方程计算最优路径,所述状态转移方程考虑插入代价、删除代价和替换代价三种状态转移情况,通过回溯所述状态转移方程获得对齐序列下标对;

18、基于所述对齐序列下标对进行特征自适应融合,所述特征自适应融合采用长短时记忆网络进行门控机制,所述长短时记忆网络由遗忘门、输入门和输出门组成,其中所述遗忘门控制历史信息的遗忘程度,所述输入门控制当前输入信息的更新程度,所述输出门控制当前时间步的输出程度,将所述长短时记忆网络的隐状态经过线性变换得到最终的跨模态融合特征。

19、在一种可选的实施方式中,

20、通过预训练的内容分类模型对所述跨模态融合特征进行多维度内容识别,得到直播间内容的类别标签及时序特征的步骤包括:

21、获取预训练的内容分类模型的知识库,对跨模态融合特征与所述知识库进行双向交叉注意力计算得到第一交互特征和第二交互特征,通过门控机制对所述第一交互特征和所述第二交互特征进行自适应融合得到语义表征;

22、基于所述语义表征构建层次化内容分类器,采用投影映射对所述语义表征进行特征变换得到主题特征,将所述主题特征与同类样本和异类样本进行对比学习得到主题分本文档来自技高网...

【技术保护点】

1.基于多模态融合的直播间内容识别与智能分发方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,将包含视频特征向量、音频特征向量和文本特征向量的多模态初始特征数据输入至预设的多模态特征融合模型,所述多模态特征融合模型采用注意力机制对视频特征向量、音频特征向量和文本特征向量进行跨模态交互及特征对齐,在特征融合过程中,当检测到某一模态数据异常缺失时,通过其他模态数据的特征补偿机制进行特征重构,生成跨模态融合特征的步骤包括:

3.根据权利要求2所述的方法,其特征在于,采用动态规划算法对所述交互特征进行时序对齐,将所述交互特征按时间维度组织形成特征序列,构建特征序列的距离矩阵,基于所述距离矩阵计算特征序列的最小对齐代价,对时序对齐后的交互特征通过门控机制进行自适应融合得到跨模态融合特征的步骤包括:

4.根据权利要求1所述的方法,其特征在于,通过预训练的内容分类模型对所述跨模态融合特征进行多维度内容识别,得到直播间内容的类别标签及时序特征的步骤包括:

5.根据权利要求4所述的方法,其特征在于,基于所述类别标签及时序特征构建直播间的内容画像,并基于知识图谱构建直播间内容之间的关联网络,采用图神经网络对具有相似主题特征的直播间进行聚类分组得到内容组别信息的步骤包括:

6.根据权利要求1所述的方法,其特征在于,将所述内容画像、所述关联网络及所述内容组别信息结合用户历史观看行为数据输入至深度强化学习模型,所述深度强化学习模型基于用户实时互动行为和停留时长数据进行在线更新,生成直播间的实时评分结果,根据所述实时评分结果动态调整不同类型直播间的展示权重及推送策略的步骤包括:

7.根据权利要求6所述的方法,其特征在于,构建分层注意力价值网络,通过内容层、时序层和组别层注意力机制分别得到内容特征、行为特征和组别特征,通过跨层自适应门控机制融合所述内容特征、所述行为特征和所述组别特征得到多层注意力融合特征,生成直播间的实时评分结果的步骤包括:

8.基于多模态融合的直播间内容识别与智能分发系统,用于实现前述权利要求1-7中任一项所述的方法,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。

...

【技术特征摘要】

1.基于多模态融合的直播间内容识别与智能分发方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,将包含视频特征向量、音频特征向量和文本特征向量的多模态初始特征数据输入至预设的多模态特征融合模型,所述多模态特征融合模型采用注意力机制对视频特征向量、音频特征向量和文本特征向量进行跨模态交互及特征对齐,在特征融合过程中,当检测到某一模态数据异常缺失时,通过其他模态数据的特征补偿机制进行特征重构,生成跨模态融合特征的步骤包括:

3.根据权利要求2所述的方法,其特征在于,采用动态规划算法对所述交互特征进行时序对齐,将所述交互特征按时间维度组织形成特征序列,构建特征序列的距离矩阵,基于所述距离矩阵计算特征序列的最小对齐代价,对时序对齐后的交互特征通过门控机制进行自适应融合得到跨模态融合特征的步骤包括:

4.根据权利要求1所述的方法,其特征在于,通过预训练的内容分类模型对所述跨模态融合特征进行多维度内容识别,得到直播间内容的类别标签及时序特征的步骤包括:

5.根据权利要求4所述的方法,其特征在于,基于所述类别标签及时序特征构建直播间的内容画像,并基于知识图谱构建直播间...

【专利技术属性】
技术研发人员:曾黎广宇昊于惊涛傅强
申请(专利权)人:北京易汇众盟网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1