一种数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号：35243617 阅读：25 留言：0更新日期：2022-10-19 09:49

本申请实施例公开了一种人工智能领域的数据处理方法、装置、设备及存储介质，其中该方法包括：针对待识别的目标弹幕，获取该目标弹幕的目标文本、以及发送该目标弹幕的目标用户对应的用户弹幕特征；用户弹幕特征是至少根据用户的历史弹幕发送情况确定的；通过弹幕识别模型，根据目标文本和目标用户对应的用户弹幕特征，确定该目标弹幕对应的识别结果；该目标弹幕对应的识别结果用于表征该目标弹幕的类型。该方法能够准确地识别弹幕是否属于不良弹幕，避免发生漏识别不良弹幕、将正常弹幕误识别为不良弹幕等情况。别为不良弹幕等情况。别为不良弹幕等情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质

[0001]本申请涉及人工智能(Artificial Intelligence，AI)
，尤其涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]如今，很多网络视频播放平台均具有弹幕功能，即支持用户在观看视频的过程中编辑并发送其对于当前播放的视频的评论内容即弹幕，观看该视频的用户可以相应地看到其他用户发送的弹幕。在实际应用中，用户发送的弹幕内容良莠不齐，其中经常夹杂着包括不雅的内容、枯燥无聊的内容、令其他用户讨厌的内容等不良内容的弹幕，此类弹幕在业界被称为不良弹幕；为了提高用户的视频观看体验，一些网络视频播放平台会识别用户发送的弹幕是否为不良弹幕，并对不良弹幕进行过滤处理，不向其他用户展示不良弹幕。
[0003]相关技术中，通常仅从弹幕自身的内容出发识别其是否属于不良弹幕；例如，将弹幕中包括的词语与预先构建的非法词表中的词语进行匹配，如若弹幕中包括与非法词表中的词语成功匹配的词语，则可确定该弹幕属于不良弹幕；又例如，利用通过机器学习算法学习得到的文本分类模型，识别弹幕是否属于不良弹幕。
[0004]上述弹幕识别方法识别弹幕是否属于不良弹幕时，只关注弹幕文本单一维度的信息，往往难以准确地识别不良弹幕，容易发生漏识别不良弹幕、误将正常弹幕识别为不良弹幕等情况。

技术实现思路

[0005]本申请实施例提供了一种数据处理方法、装置、设备及存储介质，能够准确地识别弹幕是否属于不良弹幕，避免发生漏识别不良弹幕、将正常弹幕误识别为不良弹幕...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：针对待识别的目标弹幕，获取所述目标弹幕的目标文本、以及发送所述目标弹幕的目标用户对应的用户弹幕特征；所述用户弹幕特征是至少根据用户的历史弹幕发送情况确定的；通过弹幕识别模型，根据所述目标文本和所述目标用户对应的用户弹幕特征，确定所述目标弹幕对应的识别结果；所述目标弹幕对应的识别结果用于表征所述目标弹幕的类型。2.根据权利要求1所述的方法，其特征在于，当所述目标用户对应的用户弹幕特征为所述目标用户对应的目标不良弹幕发送率时，所述通过弹幕识别模型，根据所述目标文本和所述目标用户对应的用户弹幕特征，确定所述目标弹幕对应的识别结果，包括：通过所述弹幕识别模型，根据所述目标文本，确定所述目标弹幕属于不良弹幕的基础概率；利用所述目标用户对应的目标不良弹幕发送率修正所述基础概率，得到所述目标弹幕属于不良弹幕的目标概率，作为所述目标弹幕对应的识别结果。3.根据权利要求2所述的方法，其特征在于，通过以下方式确定所述目标用户对应的目标不良弹幕发送率：确定目标社交网络平台上与所述目标用户具有目标社交关系的用户，作为所述目标用户关联的参考用户；获取所述目标用户对应的基础不良弹幕发送率、以及所述目标用户关联的各参考用户各自对应的基础不良弹幕发送率；所述基础不良弹幕发送率是用户在历史参考时段内发送的不良弹幕在所述用户在所述历史参考时段内发送的所有弹幕中的占比；根据所述目标用户对应的基础不良弹幕发送率、和所述各参考用户各自对应的基础不良弹幕发送率，确定所述目标用户对应的目标不良弹幕发送率。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：根据所述目标用户以及所述目标用户关联的参考用户，构建所述目标用户对应的社交关系图谱；所述社交关系图谱包括对应于所述目标用户的目标节点和对应于所述参考用户的参考节点；针对所述社交关系图谱中所述目标节点与每个所述参考节点之间的边，根据所述目标用户与所述参考节点对应的参考用户之间的关联度，为所述目标节点与所述参考节点之间的边配置关联权重，作为所述参考用户对应的关联权重；则所述根据所述目标用户对应的基础不良弹幕发送率、和所述各参考用户各自对应的基础不良弹幕发送率，确定所述目标用户对应的目标不良弹幕发送率，包括：根据所述目标用户对应的基础不良弹幕发送率、所述各参考用户各自对应的基础不良弹幕发送率、以及所述各参考用户各自对应的关联权重，确定所述目标用户对应的目标不良弹幕发送率。5.根据权利要求4所述的方法，其特征在于，所述根据所述目标用户与所述参考节点对应的参考用户之间的关联度，为所述边配置关联权重，包括以下至少一种：根据所述目标用户与所述参考用户之间的关注关系，为所述边配置所述关联权重；根据所述目标用户的关注内容与所述参考用户的关注内容之间的重合度，为所述边配
置所述关联权重；根据所述目标用户与所述参考用户之间的互动频率，为所述边配置所述关联权重；根据所述目标用户所属的群组与所述参考用户所属的群组之间的重合度，为所述边配置所述关联权重。6.根据权利要求2所述的方法，其特征在于，所述方法还包括：获取第一预设时段内产生的弹幕作为第一训练弹幕，获取所述第一训练弹幕的第一训练文本和所述第一训练弹幕属于不良弹幕的目标概率；利用所述第一训练文本和所述第一训练弹幕属于不良弹幕的目标概率，构建第一训练样本；基于所述第一训练样本，对所述弹幕识别模型进行更新训练；获取第二预设时段内所述目标用户发送的弹幕作为第一更新参考弹幕，获取所述第一更新参考弹幕对应的识别结果；根据所述第一更新参考弹幕对应的识别结果，更新所述目标用户对应的目标不良弹幕发送率。7.根据权利要求1所述的方法，其特征在于，当所述目标用户对应的用户弹幕特征为所述目标用户对应的目标特征向量时，所述通过弹幕识别模型，根据所述目标文本和所述目标用户对应的用户弹幕特征，确定所述目标弹幕对应的识别结果，包括：通过所述弹幕识别模型中的词特征提取结构，对所述目标文本中各分词进行特征提取处理，得到所述目标文本中各分词各自对应的初级词特征向量；通过所述弹幕识别模型中的融合特征处理结构，根据所述目标文本中各分词各自对应的初级词特征向量、以及所述目标用户对应的目标特征向量，确定所述目标弹幕对应的识别结果。8.根据权利要求7所述的方法，其特征在于，通过以下方式确定所述目标用户对应的目标特征向量：获取所述目标用户对应的不良弹幕发送率、所述目标用户在参考周期内的弹幕发送次数、以及所述目标用户的个人基本信息；通过用...

【专利技术属性】
技术研发人员：司雪敏，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人