一种数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:35243617 阅读:25 留言:0更新日期:2022-10-19 09:49
本申请实施例公开了一种人工智能领域的数据处理方法、装置、设备及存储介质,其中该方法包括:针对待识别的目标弹幕,获取该目标弹幕的目标文本、以及发送该目标弹幕的目标用户对应的用户弹幕特征;用户弹幕特征是至少根据用户的历史弹幕发送情况确定的;通过弹幕识别模型,根据目标文本和目标用户对应的用户弹幕特征,确定该目标弹幕对应的识别结果;该目标弹幕对应的识别结果用于表征该目标弹幕的类型。该方法能够准确地识别弹幕是否属于不良弹幕,避免发生漏识别不良弹幕、将正常弹幕误识别为不良弹幕等情况。别为不良弹幕等情况。别为不良弹幕等情况。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质


[0001]本申请涉及人工智能(Artificial Intelligence,AI)
,尤其涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]如今,很多网络视频播放平台均具有弹幕功能,即支持用户在观看视频的过程中编辑并发送其对于当前播放的视频的评论内容即弹幕,观看该视频的用户可以相应地看到其他用户发送的弹幕。在实际应用中,用户发送的弹幕内容良莠不齐,其中经常夹杂着包括不雅的内容、枯燥无聊的内容、令其他用户讨厌的内容等不良内容的弹幕,此类弹幕在业界被称为不良弹幕;为了提高用户的视频观看体验,一些网络视频播放平台会识别用户发送的弹幕是否为不良弹幕,并对不良弹幕进行过滤处理,不向其他用户展示不良弹幕。
[0003]相关技术中,通常仅从弹幕自身的内容出发识别其是否属于不良弹幕;例如,将弹幕中包括的词语与预先构建的非法词表中的词语进行匹配,如若弹幕中包括与非法词表中的词语成功匹配的词语,则可确定该弹幕属于不良弹幕;又例如,利用通过机器学习算法学习得到的文本分类模型,识别弹幕是否属于不良弹幕。
[0004]上述弹幕识别方法识别弹幕是否属于不良弹幕时,只关注弹幕文本单一维度的信息,往往难以准确地识别不良弹幕,容易发生漏识别不良弹幕、误将正常弹幕识别为不良弹幕等情况。

技术实现思路

[0005]本申请实施例提供了一种数据处理方法、装置、设备及存储介质,能够准确地识别弹幕是否属于不良弹幕,避免发生漏识别不良弹幕、将正常弹幕误识别为不良弹幕等情况。
[0006]有鉴于此,本申请第一方面提供了一种数据处理方法,所述方法包括:
[0007]针对待识别的目标弹幕,获取所述目标弹幕的目标文本、以及发送所述目标弹幕的目标用户对应的用户弹幕特征;所述用户弹幕特征是至少根据用户的历史弹幕发送情况确定的;
[0008]通过弹幕识别模型,根据所述目标文本和所述目标用户对应的用户弹幕特征,确定所述目标弹幕对应的识别结果;所述目标弹幕对应的识别结果用于表征所述目标弹幕的类型。
[0009]本申请第二方面提供了一种数据处理装置,所述装置包括:
[0010]数据获取模块,用于针对待识别的目标弹幕,获取所述目标弹幕的目标文本、以及发送所述目标弹幕的目标用户对应的用户弹幕特征;所述用户弹幕特征是至少根据用户的历史弹幕发送情况确定的;
[0011]弹幕识别模块,用于通过弹幕识别模型,根据所述目标文本和所述目标用户对应的用户弹幕特征,确定所述目标弹幕对应的识别结果;所述目标弹幕对应的识别结果用于表征所述目标弹幕的类型。
[0012]本申请第三方面提供了一种设备,所述设备包括处理器以及存储器:
[0013]所述存储器用于存储计算机程序;
[0014]所述处理器用于根据所述计算机程序,执行如上述第一方面所述的数据处理方法的步骤。
[0015]本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的数据处理方法的步骤。
[0016]本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的数据处理方法的步骤。
[0017]从以上技术方案可以看出,本申请实施例具有以下优点:
[0018]在本申请实施例提供的数据处理方法中,针对待识别的目标弹幕,先获取该目标弹幕的目标文本、以及发送该目标弹幕的目标用户对应的用户弹幕特征,此处目标用户对应的用户弹幕特征是根据该目标用户的历史弹幕发送情况确定的;进而,通过弹幕识别模型,根据该目标文本和该目标用户对应的用户弹幕特征,确定该目标弹幕对应的识别结果,该目标弹幕对应的识别结果能够相应地表征该目标弹幕的类型,例如表征该目标弹幕是否属于不良弹幕。相比相关技术中仅从弹幕文本这一维度识别弹幕是否属于不良弹幕的技术方案,本申请实施例提供的数据处理方法识别目标弹幕是否属于不良弹幕时,综合考虑了该目标弹幕自身的文本信息以及发送该目标弹幕的目标用户对应的用户弹幕特征;由于用户弹幕特征是根据用户的历史弹幕发送情况确定的,其能够反映用户发送的弹幕的特点,因此,利用用户对应的用户弹幕特征辅助识别该用户发送的弹幕是否属于不良弹幕,可以有效地提升不良弹幕的识别准确率,避免发生不良弹幕漏识别和误识别的情况,进而,有助于有效地过滤不良弹幕,避免向视频观看用户展示不良弹幕,提升用户的视频观看体验。
附图说明
[0019]图1为本申请实施例提供的数据处理方法的应用场景示意图;
[0020]图2为本申请实施例提供的数据处理方法的流程示意图;
[0021]图3为本申请实施例提供的一种弹幕识别模型的工作原理示意图;
[0022]图4为本申请实施例提供的另一种弹幕识别模型的工作原理示意图;
[0023]图5为本申请实施例提供的目标不良弹幕发送率确定方法的流程示意图;
[0024]图6为本申请实施例提供的目标特征向量的确定方法的流程示意图;
[0025]图7为本申请实施例提供的用户弹幕特征建模模型的工作原理示意图;
[0026]图8为本申请实施例提供的用户特征融合模型的工作原理示意图;
[0027]图9为本申请实施例提供的第一种数据处理装置的结构示意图;
[0028]图10为本申请实施例提供的第二种数据处理装置的结构示意图;
[0029]图11为本申请实施例提供的第三种数据处理装置的结构示意图;
[0030]图12为本申请实施例提供的第四种数据处理装置的结构示意图;
[0031]图13为本申请实施例提供的第五种数据处理装置的结构示意图;
[0032]图14为本申请实施例提供的第六种数据处理装置的结构示意图;
[0033]图15为本申请实施例提供的终端设备的结构示意图;
[0034]图16为本申请实施例提供的服务器的结构示意图。
具体实施方式
[0035]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0036]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:针对待识别的目标弹幕,获取所述目标弹幕的目标文本、以及发送所述目标弹幕的目标用户对应的用户弹幕特征;所述用户弹幕特征是至少根据用户的历史弹幕发送情况确定的;通过弹幕识别模型,根据所述目标文本和所述目标用户对应的用户弹幕特征,确定所述目标弹幕对应的识别结果;所述目标弹幕对应的识别结果用于表征所述目标弹幕的类型。2.根据权利要求1所述的方法,其特征在于,当所述目标用户对应的用户弹幕特征为所述目标用户对应的目标不良弹幕发送率时,所述通过弹幕识别模型,根据所述目标文本和所述目标用户对应的用户弹幕特征,确定所述目标弹幕对应的识别结果,包括:通过所述弹幕识别模型,根据所述目标文本,确定所述目标弹幕属于不良弹幕的基础概率;利用所述目标用户对应的目标不良弹幕发送率修正所述基础概率,得到所述目标弹幕属于不良弹幕的目标概率,作为所述目标弹幕对应的识别结果。3.根据权利要求2所述的方法,其特征在于,通过以下方式确定所述目标用户对应的目标不良弹幕发送率:确定目标社交网络平台上与所述目标用户具有目标社交关系的用户,作为所述目标用户关联的参考用户;获取所述目标用户对应的基础不良弹幕发送率、以及所述目标用户关联的各参考用户各自对应的基础不良弹幕发送率;所述基础不良弹幕发送率是用户在历史参考时段内发送的不良弹幕在所述用户在所述历史参考时段内发送的所有弹幕中的占比;根据所述目标用户对应的基础不良弹幕发送率、和所述各参考用户各自对应的基础不良弹幕发送率,确定所述目标用户对应的目标不良弹幕发送率。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据所述目标用户以及所述目标用户关联的参考用户,构建所述目标用户对应的社交关系图谱;所述社交关系图谱包括对应于所述目标用户的目标节点和对应于所述参考用户的参考节点;针对所述社交关系图谱中所述目标节点与每个所述参考节点之间的边,根据所述目标用户与所述参考节点对应的参考用户之间的关联度,为所述目标节点与所述参考节点之间的边配置关联权重,作为所述参考用户对应的关联权重;则所述根据所述目标用户对应的基础不良弹幕发送率、和所述各参考用户各自对应的基础不良弹幕发送率,确定所述目标用户对应的目标不良弹幕发送率,包括:根据所述目标用户对应的基础不良弹幕发送率、所述各参考用户各自对应的基础不良弹幕发送率、以及所述各参考用户各自对应的关联权重,确定所述目标用户对应的目标不良弹幕发送率。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标用户与所述参考节点对应的参考用户之间的关联度,为所述边配置关联权重,包括以下至少一种:根据所述目标用户与所述参考用户之间的关注关系,为所述边配置所述关联权重;根据所述目标用户的关注内容与所述参考用户的关注内容之间的重合度,为所述边配
置所述关联权重;根据所述目标用户与所述参考用户之间的互动频率,为所述边配置所述关联权重;根据所述目标用户所属的群组与所述参考用户所属的群组之间的重合度,为所述边配置所述关联权重。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取第一预设时段内产生的弹幕作为第一训练弹幕,获取所述第一训练弹幕的第一训练文本和所述第一训练弹幕属于不良弹幕的目标概率;利用所述第一训练文本和所述第一训练弹幕属于不良弹幕的目标概率,构建第一训练样本;基于所述第一训练样本,对所述弹幕识别模型进行更新训练;获取第二预设时段内所述目标用户发送的弹幕作为第一更新参考弹幕,获取所述第一更新参考弹幕对应的识别结果;根据所述第一更新参考弹幕对应的识别结果,更新所述目标用户对应的目标不良弹幕发送率。7.根据权利要求1所述的方法,其特征在于,当所述目标用户对应的用户弹幕特征为所述目标用户对应的目标特征向量时,所述通过弹幕识别模型,根据所述目标文本和所述目标用户对应的用户弹幕特征,确定所述目标弹幕对应的识别结果,包括:通过所述弹幕识别模型中的词特征提取结构,对所述目标文本中各分词进行特征提取处理,得到所述目标文本中各分词各自对应的初级词特征向量;通过所述弹幕识别模型中的融合特征处理结构,根据所述目标文本中各分词各自对应的初级词特征向量、以及所述目标用户对应的目标特征向量,确定所述目标弹幕对应的识别结果。8.根据权利要求7所述的方法,其特征在于,通过以下方式确定所述目标用户对应的目标特征向量:获取所述目标用户对应的不良弹幕发送率、所述目标用户在参考周期内的弹幕发送次数、以及所述目标用户的个人基本信息;通过用...

【专利技术属性】
技术研发人员:司雪敏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1