内容风险识别方法、装置、系统及设备制造方法及图纸

技术编号:38238408 阅读:9 留言:0更新日期:2023-07-25 18:02
本申请公开了内容风险识别方法、内容风险知识点构建及更新方法、内容风险识别语句生成方法。其中,内容风险识别方法通过将运营专家的内容风险识别知识通过特定领域语言形式进行表达,使得风险识别规则适用于符合知识点筛选条件的所有知识点,这样就无需在风险识别规则中对相关知识点进行枚举,只要为知识点设置属性信息,即可基于知识点的属性信息通过知识点筛选条件选取出适用于相关风险识别规则的知识点,由此可实现规则的快速迭代。同时,通过设置风险识别规则子句,并设置至少一个风险算子的目标风险要素值作为规则子句的构成要素,使得风险识别算法与风险识别规则相结合,这样即达到风险识别方式具有可解释性,又可利用风险算子提升泛化性。险算子提升泛化性。险算子提升泛化性。

【技术实现步骤摘要】
内容风险识别方法、装置、系统及设备


[0001]本申请涉及数据处理
,具体涉及内容风险识别方法、装置和系统,以及电子设备。

技术介绍

[0002]随着互联网技术广泛应用于各个行业,每天生产内容的用户量已达到上亿级。海量的大数据积累,极大地丰富了人们的精神和物质生活,但互联网内容风险和隐患越来越突出。为了有效控制内容风险,可通过内容风险识别技术从海量数据中快速识别存在风险的内容。
[0003]目前,内容风险识别技术主要分为两类,一类是基于神经网络的方法,另一类是基于规则的方法。这两种方法有各自的优缺点,基于规则的方法擅长逻辑推理,具有很强的可解释性,但它对自然语言的多义性和变化性鲁棒性不强,对噪声数据的识别效果不佳;相反,神经网络具有很强的容错性,能够利用嵌入向量学习抽象语义,而不只是实体和关系之间的字面意义,但存在着鲁棒差、可解释差、更新慢的问题。
[0004]综上所述,如何弥补神经网络方法和规则方法之间的鸿沟,使得在保证高召回高准确的同时,能够快速迭代人工提供的先验知识,是亟需进行研究和攻关的问题。

技术实现思路

[0005]本申请提供内容风险识别方法,以解决现有技术存在的无法兼具算法模型的高泛化性和规则策略的高时效性的问题。本申请另外提供内容风险识别装置和系统,以及电子设备。
[0006]本申请提供一种内容风险知识点构建方法,包括:
[0007]配置风险点信息;
[0008]根据风险点配置信息,设置知识点关联的风险点信息;
[0009]根据知识点信息和知识点关联的风险点信息,生成内容风险知识点条目,将所述内容风险知识点条目存储到内容风险知识库。
[0010]本申请提供一种内容风险知识点更新方法,包括:
[0011]确定目标风险点;
[0012]获取所述目标风险点的知识点更新信息;
[0013]根据所述知识点更新信息,更新内容风险知识库。
[0014]可选的,还包括:
[0015]从内容风险知识库中获取与所述目标风险点关联的内容风险知识点条目;
[0016]展示所述内容风险知识点条目;
[0017]所述获取所述目标风险点的知识点更新信息,包括:
[0018]根据展示的内容风险知识点条目,确定所述知识点更新信息。
[0019]可选的,所述知识点更新信息包括新增知识点信息;所述根据所述知识点更新信
息,更新内容风险知识库,包括:
[0020]根据新增知识点信息,生成所述目标风险点的新增内容风险知识点条目;
[0021]将所述新增内容风险知识点条目存储到内容风险知识库。
[0022]可选的,所述知识点更新信息包括删除知识点信息;所述根据所述知识点更新信息,更新内容风险知识库,包括:
[0023]根据删除知识点信息,删除内容风险知识库中的对应内容风险知识点条目。
[0024]可选的,所述知识点更新信息包括更新知识点信息;所述根据所述知识点更新信息,更新内容风险知识库,包括:
[0025]根据所述更新知识点信息,更新内容风险知识库中的对应内容风险知识点条目的知识点信息。
[0026]本申请提供一种内容风险识别语句生成方法,包括:
[0027]设置目标风险点的知识点筛选条件信息、与风险识别规则相关的至少一个风险算子对应的目标风险要素值;
[0028]根据所述知识点筛选条件信息,生成知识点筛选条件子句;
[0029]根据所述至少一个风险算子对应的目标风险要素值,生成风险识别规则子句;
[0030]根据所述知识点筛选条件子句和所述风险识别规则子句,生成目标风险点的风险定义脚本语句。
[0031]可选的,所述知识点筛选条件信息包括:知识点的目标风险属性信息和/或目标客观属性信息。
[0032]可选的,还包括:
[0033]获取多个风险算子信息;
[0034]设置与风险识别规则相关的至少一个风险算子对应的目标风险要素值,包括:
[0035]根据所述多个风险算子信息,设置与风险识别规则相关的至少一个风险算子、与所述风险算子对应的目标风险要素值。
[0036]本申请提供一种内容风险识别方法,包括:
[0037]获取目标内容;
[0038]获取目标风险点的风险定义脚本语句,所述脚本语句包括知识点筛选条件子句和风险识别规则子句,所述规则子句的构成要素包括至少一个风险算子对应的目标风险要素值;
[0039]根据所述条件子句,获取与所述目标风险点对应的目标知识点集合;
[0040]通过所述至少一个风险算子,根据所述目标内容和所述目标知识点集合,获取对应的风险要素值;
[0041]根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点。
[0042]可选的,所述知识点的属性信息包括:风险属性信息和/或客观属性信息;
[0043]所述条件子句包括:所述风险属性信息为目标风险属性信息,和/或所述客观属性信息为目标客观属性信息;
[0044]所述根据所述条件子句,获取与所述目标风险点对应的目标知识点集合,包括:
[0045]获取所述风险属性信息为所述目标风险属性信息、和/或所述客观属性信息为所
述目标客观属性信息的知识点,形成所述目标知识点集合。
[0046]可选的,所述至少一个风险算子包括知识点提及方式算子,所述知识点提及方式算子,用于根据所述目标知识点集合和所述目标内容,获取所述目标内容对所述目标知识点的提及方式信息,作为与所述知识点提及方式算子对应的风险要素值。
[0047]可选的,所述知识点提及方式算子对应的目标风险要素值包括:不当提及,攻击,或者负面提及;
[0048]所述根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点,包括:
[0049]若所述提及方式信息为所述不当提及,攻击,或者负面提及,则判定所述目标内容具有所述目标风险点。
[0050]可选的,所述至少一个风险算子还包括:内容特征算子;
[0051]所述内容特征算子对应的目标风险要素值为目标内容特征信息;
[0052]所述通过所述至少一个风险算子,根据所述目标内容,或者根据所述目标内容和所述目标知识点集合,获取对应的风险要素值,包括:
[0053]通过所述内容特征算子,根据所述目标内容,获取所述目标内容的内容特征信息;
[0054]所述根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点,包括:
[0055]若所述提及方式信息为提及、且所述内容特征信息为对应的目标内容特征信息,则判定所述目标内容具有所述目标风险点。
[0056]可选的,所述目标风险点包括多个并列关系的所述风险定义脚本语句;
[0057]若任意一个所述风险定义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容风险知识点构建方法,其特征在于,包括:配置风险点信息;根据风险点配置信息,设置知识点关联的风险点信息;根据知识点信息和知识点关联的风险点信息,生成内容风险知识点条目,将所述内容风险知识点条目存储到内容风险知识库。2.一种内容风险知识点更新方法,其特征在于,包括:确定目标风险点;获取所述目标风险点的知识点更新信息;根据所述知识点更新信息,更新内容风险知识库。3.一种内容风险识别语句生成方法,其特征在于,包括:设置目标风险点的知识点筛选条件信息、与风险识别规则相关的至少一个风险算子对应的目标风险要素值;根据所述知识点筛选条件信息,生成知识点筛选条件子句;根据所述至少一个风险算子对应的目标风险要素值,生成风险识别规则子句;根据所述知识点筛选条件子句和所述风险识别规则子句,生成目标风险点的风险定义脚本语句。4.根据权利要求3的方法,其特征在于,还包括:获取多个风险算子信息;设置与风险识别规则相关的至少一个风险算子对应的目标风险要素值,包括:根据所述多个风险算子信息,设置与风险识别规则相关的至少一个风险算子、与所述风险算子对应的目标风险要素值。5.一种内容风险识别方法,其特征在于,包括:获取目标内容;获取目标风险点的风险定义脚本语句,所述脚本语句包括知识点筛选条件子句和风险识别规则子句,所述规则子句的构成要素包括至少一个风险算子对应的目标风险要素值;根据所述条件子句,获取与所述目标风险点对应的目标知识点集合;通过所述至少一个风险算子,根据所述目标内容和所述目标知识点集合,获取对应的风险要素值;根据所述至少一个风险算子对应的风险要素值和目标风险要素值,确定所述目标内容是否具有所述目标风险点。6.根据权利要求5所述的方法,其特征在于,所述知识点的属性信息包括:风险属性信息和/或客观属性信息;所述条件子句包括:所述风险属性信息为目标风险属性信息,和/或所述客观属性信息为目标客观属性信息;所述根据所述条件子句,获取与所述目标风险点对应的目标知识点集合,包括:获取所述风险属性信息为所述目标风险属性信息、和/或所述客观属性信息为所述目标客观属性信息的知识点,形成所述目标知识点集合。7.根据权利要求5所述的方法,其特征在于,所述至少一个风险算子包括知识点提及方式算子,所述知识点提及方式算子,用于根
据所述目标知识点集合和所...

【专利技术属性】
技术研发人员:黄龙涛毛丁辉肖鹏薛晖
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1