隐性广告处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39241257 阅读:14 留言:0更新日期:2023-10-30 11:53
本申请实施例属于自然语言处理技术领域,涉及一种隐性广告处理方法、装置、计算机设备及存储介质,方法包括:获取各待处理文本,并获取敏感词集合和关键词集合;将与敏感词集合实现文本匹配的待处理文本作为第一文本;将与关键词集合未实现文本匹配的第一文本作为第二文本;根据各第二文本的文本长度确定隐性广告识别方式,从而对第二文本进行广告识别得到识别结果;当根据识别结果确定第二文本为隐性广告文本时,通过行业分类模型识别第二文本中隐性广告的行业类型;选取与行业类型相对应的规则引擎,并根据规则引擎对第二文本进行违规判别,得到违规判别结果。本申请提高了隐性广告的识别和违规判别效率,并实现了违规判别的可解释性。解释性。解释性。

【技术实现步骤摘要】
隐性广告处理方法、装置、计算机设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种隐性广告处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]隐性广告又叫软广告(Soft Advertising),是相较于传统的硬广告而言的概念。软广告更为间接、隐晦,往往在内容中融入广告元素,不像硬广告那样直接推销产品,而是通过情感、故事、娱乐等方式来传递广告信息。随着互联网技术的发展,隐性广告在网络中广泛传播。为了对网络环境进行规范和管理,需要对隐性广告进行识别,以避免用户受到不良广告信息的侵害。
[0003]现有的隐性广告识别技术,通常使用深度学习或者机器学习的模型对舆情信息进行判定。然而,互联网中的舆情信息数量很大,通过深度学习或机器学习模型进行隐性广告识别会消耗大量资源,且效率较低。并且,单一模型只能判断舆情信息是否包含隐性广告,而其中的隐性广告是否违规,需要额外的模型进行判断,进一步影响了处理效率,并且缺乏可解释性。

技术实现思路

[0004]本申请实施例的目的在于提出一种隐性广告处理方法、装置、计算机设备及存储介质,以解决隐性广告识别处理效率较低的技术问题。
[0005]为了解决上述技术问题,本申请实施例提供一种隐性广告处理方法,采用了如下所述的技术方案:获取多个待处理文本,并获取包含多个敏感词的敏感词集合,以及包含多个关键词的关键词集合,其中,敏感词为与隐性广告相关的词语,关键词为与隐性广告科普教育相关的词语;将所述敏感词集合与各待处理文本进行文本匹配处理,并将实现文本匹配的待处理文本作为第一文本;将所述关键词集合与各第一文本进行文本匹配处理,并将未实现文本匹配的第一文本作为第二文本;对于每个第二文本,获取所述第二文本的文本长度;根据所述文本长度确定所述第二文本的隐性广告识别方式,并根据确定的隐性广告识别方式对所述第二文本进行广告识别,得到识别结果;当根据所述识别结果确定所述第二文本为隐性广告文本时,通过行业分类模型识别所述第二文本中隐性广告的行业类型;选取与所述行业类型相对应的规则引擎,并根据所述规则引擎对所述第二文本进行违规判别,得到违规判别结果。
[0006]为了解决上述技术问题,本申请实施例还提供一种隐性广告处理装置,采用了如
下所述的技术方案:获取模块,用于获取多个待处理文本,并获取包含多个敏感词的敏感词集合,以及包含多个关键词的关键词集合,其中,敏感词为与隐性广告相关的词语,关键词为与隐性广告科普教育相关的词语;第一匹配模块,用于将所述敏感词集合与各待处理文本进行文本匹配处理,并将实现文本匹配的待处理文本作为第一文本;第二匹配模块,用于将所述关键词集合与各第一文本进行文本匹配处理,并将未实现文本匹配的第一文本作为第二文本;长度获取模块,用于对于每个第二文本,获取所述第二文本的文本长度;广告识别模块,用于根据所述文本长度确定所述第二文本的隐性广告识别方式,并根据确定的隐性广告识别方式对所述第二文本进行广告识别,得到识别结果;类型获取模块,用于当根据所述识别结果确定所述第二文本为隐性广告文本时,通过行业分类模型识别所述第二文本中隐性广告的行业类型;违规判别模块,用于选取与所述行业类型相对应的规则引擎,并根据所述规则引擎对所述第二文本进行违规判别,得到违规判别结果。
[0007]为了解决上述技术问题,本申请实施例还提供一种计算机设备, 所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的隐性广告处理方法的步骤。
[0008]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的隐性广告处理方法的步骤。
[0009]与现有技术相比,本申请实施例主要有以下有益效果:获取多个待处理文本,并获取包含多个敏感词的敏感词集合,以及包含多个关键词的关键词集合,敏感词是与隐性广告相关的词语,关键词是与隐性广告科普教育相关的词语;将敏感词集合与各待处理文本进行文本匹配处理,若能够文本匹配,表示待处理文本中可能包含隐性广告,将待处理文本作为第一文本;将关键词集合与各第一文本进行文本匹配处理,若不能实现文本匹配,表示第一文本可能不是隐性广告科普教育文本,而是隐性广告,需要进行识别处理;两步匹配对文本进行两轮筛选,得到有较高概率包含隐性广告的文本,减少了需要处理的数据量,提高了处理效率;获取各第二文本的文本长度,文本长度与文本特征和文本处理难度相关,根据文本长度确定隐性广告识别方式,隐性广告识别方式根据文本长度进行了针对性设计,可以准确高效地对相应的第二文本进行广告识别;当识别结果表明第二文本为隐性广告文本时,通过行业分类模型识别第二文本中隐性广告的行业类型,不同行业中广告的法律法规不同,根据行业类型获取对应的规则引擎,从而对第二文本进行违规判别,得到违规判别结果;本申请实现了隐性广告从识别到是否违规的完整判断流程,提高了隐性广告的识别和违规判别效率,并实现了违规判别的可解释性。
附图说明
[0010]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域
普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的隐性广告处理方法的一个实施例的流程图;图3是根据本申请的隐性广告处理装置的一个实施例的结构示意图;图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
[0012]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0013]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0014]为了使本
的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0015]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种隐性广告处理方法,其特征在于,包括下述步骤:获取多个待处理文本,并获取包含多个敏感词的敏感词集合,以及包含多个关键词的关键词集合,其中,敏感词为与隐性广告相关的词语,关键词为与隐性广告科普教育相关的词语;将所述敏感词集合与各待处理文本进行文本匹配处理,并将实现文本匹配的待处理文本作为第一文本;将所述关键词集合与各第一文本进行文本匹配处理,并将未实现文本匹配的第一文本作为第二文本;对于每个第二文本,获取所述第二文本的文本长度;根据所述文本长度确定所述第二文本的隐性广告识别方式,并根据确定的隐性广告识别方式对所述第二文本进行广告识别,得到识别结果;当根据所述识别结果确定所述第二文本为隐性广告文本时,通过行业分类模型识别所述第二文本中隐性广告的行业类型;选取与所述行业类型相对应的规则引擎,并根据所述规则引擎对所述第二文本进行违规判别,得到违规判别结果。2.根据权利要求1所述的隐性广告处理方法,其特征在于,所述方法还包括:获取由多个隐性广告文本和多个非隐性广告文本构成的库存文本集;对各隐性广告文本进行分词处理,得到多个分词;基于所述各隐性广告文本计算各分词的第一逆文件词频,基于所述库存文本集计算所述各分词的第二逆文件词频,以根据所述各分词的第一逆文件词频和第二逆文件词频计算所述各分词的词频比;根据所述各分词的词频比、预设的第一阈值和初始敏感词集合对所述各分词进行筛选,得到多个潜在扩充词,潜在扩充词的词频比大于所述第一阈值,且不存在于所述初始敏感词集合;根据各潜在扩充词采集舆情文本,得到潜在舆情集合;获取所述潜在舆情集合中包含隐性广告的舆情文本,得到扩充舆情集合;对于所述扩充舆情集合中的各潜在扩充词,根据所述扩充舆情集合计算所述各潜在扩充词的第三逆文件词频;获取预设的第二阈值,以选取第三逆文件词频大于所述第二阈值的潜在扩充词;根据选取到的潜在扩充词和所述初始敏感词集合,构建敏感词集合。3.根据权利要求1所述的隐性广告处理方法,其特征在于,所述根据确定的隐性广告识别方式对所述第二文本进行广告识别,得到识别结果的步骤包括:当所述文本长度处于第一长度区间时,对所述第二文本进行分词处理,得到多个第二分词;分别计算每个第二分词在所述第二文本中的词频;基于各第二分词及其对应的词频,生成所述第二文本的词向量;将所述词向量输入线性模型以进行广告识别,得到识别结果。4.根据权利要求3所述的隐性广告处理方法,其特征在于,所述根据确定的隐性广告识别方式对所述第二文本进行广告识别,得到识别结果的步骤包括:
当所述文本长度处于第二长度区间时,获取语义模型;将所述第二文本输入所述语义模型以进行广告识...

【专利技术属性】
技术研发人员:冷万贵照众聂萼辉刘刚健
申请(专利权)人:湖南财信数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1