一种广告识别方法及装置制造方法及图纸

技术编号:22565096 阅读:16 留言:0更新日期:2019-11-16 12:00
本申请实施例提供了一种广告识别方法及装置,能够使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息;根据预设的至少一种权重因素生成所述疑似广告信息的广告权重;所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重,用户已发布的广告信息占用户已发布的全部媒体信息的比重,以及所述疑似广告信息中的图片数量中的一个或多个;将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。本申请实施例提供的方法,使用分类模型和广告权重对媒体信息进行两级筛选,先确定疑似广告信息,再根据广告权重确定疑似广告信息是否是广告,从而准确识别广告,解决了现有技术无法及时有效地识别社交平台内广告的问题。

A method and device of advertisement recognition

The embodiment of the application provides an advertisement recognition method and device, which can obtain the suspected advertisement information from the media information published by the user using the classification model including the classification expression; generate the advertisement weight of the suspected advertisement information according to at least one preset weight factor; the weight factor includes the proportion of the suspected advertisement information in the length of the full text of the media information , the proportion of the advertising information published by the user in the total media information published by the user, and one or more pictures in the suspected advertising information; the suspected advertising information whose advertising weight is greater than the preset threshold is determined as the advertising information. The method provided in the embodiment of the application uses the classification model and the advertisement weight to carry out two-level screening of the media information, first determining the suspected advertisement information, and then determining whether the suspected advertisement information is an advertisement according to the advertisement weight, so as to accurately identify the advertisement, solving the problem that the prior art cannot effectively identify the advertisement in the social platform in a timely manner.

【技术实现步骤摘要】
一种广告识别方法及装置
本申请涉及自然语言处理
,尤其涉及一种广告识别方法及装置。
技术介绍
各类社交平台,例如微博、微信、贴吧和论坛等,往往会成为广告投放者的目标。广告投放者通过在各个社交平台大量注册账号,并大量生成广告留言、回复等方式进行广告投放,导致社交平台的正常内容中穿插了大量的广告内容,降低了社交平台的内容质量,使用户在社交平台浏览内容时被动地浏览到广告信息,影响用户的使用体验。目前,为了治理在社交平台中出现的各类广告,社交平台的管理者或运营者通常会设置一些具有审核权限的账号,并由持有这些账号的人员以人工巡查的方式找出广告并进行删除。但是,广告投放者为了提高广告投放量通常使用软件进行自动投放,广告投放数量巨大,导致采用人工巡查去除广告的方法难以对这些广告进行有效且及时地遏制。因此,社交平台的广告问题始终得不到有效地解决。
技术实现思路
本申请实施例提供了一种广告识别方法及装置,以解决现有技术无法及时有效地识别社交平台内广告的问题。第一方面,本申请实施例提供了一种广告识别方法,包括:使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息;根据预设的至少一种权重因素生成所述疑似广告信息的广告权重;所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重,用户已发布的广告信息占用户已发布的全部媒体信息的比重,以及所述疑似广告信息中的图片数量中的一个或多个;将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。第二方面,本申请实施例提供了一种广告识别装置,包括:信息获取模块,用于使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息;权重生成模块,用于根据预设的至少一种权重因素生成所述疑似广告信息的广告权重;所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重,用户已发布的广告信息占用户已发布的全部媒体信息的比重,以及所述疑似广告信息中的图片数量中的一个或多个;广告确定模块,用于将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。由以上技术方案可知,本申请实施例提供了一种广告识别方法及装置,能够使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息;根据预设的至少一种权重因素生成所述疑似广告信息的广告权重;所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重,用户已发布的广告信息占用户已发布的全部媒体信息的比重,以及所述疑似广告信息中的图片数量中的一个或多个;将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。本申请实施例提供的技术方案,使用分类模型和广告权重对媒体信息进行两级筛选,先确定疑似广告信息,再基于疑似广告信息的字符长度、内容和疑似广告信息对应的用户行为等因素确定其广告权重,并根据广告权重确定疑似广告信息是否是广告,从而准确识别广告,解决了现有技术无法及时有效地识别社交平台内广告的问题。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种广告识别方法的流程图;图2是本申请实施例提供的获取疑似广告信息长度的流程图;图3是本申请实施例提供生成疑似广告信息的广告权重的流程图;图4是本申请实施例提供的对发布广告的用户进行管理的流程图;图5是本申请实施例提供的一种广告识别装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。各类社交平台,例如微博、微信、贴吧和论坛等,往往会成为广告投放者的目标。广告投放者通过在各个社交平台大量注册账号,并大量生成广告留言、回复等方式进行广告投放,导致社交平台的正常内容中穿插了大量的广告内容,降低了社交平台的内容质量,使用户在社交平台浏览内容时被动地浏览到广告信息,影响用户的使用体验。现有技术中,网页中的广告至少有两种形式,一种是网站服务商、广告商或各个广告联盟在网页中指定位置投放的文字广告、图片广告和弹窗广告等,这种广告可以通过网页元素过滤的方式进行屏蔽;另一种是在各类社交平台,例如微博、微信、贴吧和论坛中,广告投放者用这些平台账号进行发帖、留言、回复等方式发布的广告,这些广告本身属于社交平台内容的一部分,因此无法用上述网页元素过滤的方式进行屏蔽。对此,为了治理在社交平台中出现的各类广告,社交平台的管理者或运营者通常会设置一些具有审核权限的账号,并由持有这些账号的人员以人工巡查的方式找出广告并进行删除。但是,广告投放者为了提高广告投放量通常使用软件进行自动投放,广告投放数量巨大,导致采用人工巡查去除广告的方法难以对这些广告进行有效且及时地遏制。因此,社交平台的广告问题始终得不到有效地解决。本申请实施例提供了一种广告识别方法及装置,以解决现有技术无法及时有效地识别社交平台内广告的问题。下面是本申请的方法实施例。本申请的方法实施例提供了一种广告识别方法。图1是该广告识别方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种设备中。如图1所示,该方法包括以下步骤:步骤S101,使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息。本申请实施例中使用的分类模型从结构上来说,包括:至少一个分类节点,每个分类节点对应一个广告类别,每个广告类别对应一个类别权重;每个分类节点包括至少一个分类表达式,分类表达式用于从所述媒体信息中识别出所述疑似广告信息。本申请实施例中使用的分类模型从内容上来说,由本体、要素和概念这三个部分组成。其中,广告描述中可能出现的业务性表述,根据其内容和语义建成不同的要素,每个要素对应一种业务分类;广告描述中可能出现的语言通用性的表述,根据其内容和语义建成不同的概念,每个概念包含至少一个表述相同语义的概念表达式;至少一个概念表达式通过“与”“或”“非”“距离”“顺序”等各种算子组合形成分类表达式;至少一个业务分类和业务分类中的至少一个分类表达式,集成在一起就构成了模型的本体。表1示出了分类模型的结构。表1如表1所示,要素对应的业务分类包括“高权重广告识别”,在“高权重广告识别”分类下包括多个分类表达式,以分类表达式“c_推销网址+{0,30}c_尝试或沟通”为例,它包括“c_推销网址”和“c_尝试或沟通”这两个概念,以及“+”这一“与”算子和“{0,30}”这一距离算子。进一步地,每个概念可以对应设置有概念树,概念树中包括至少一个概念表达式,用于从语料中匹配出该概念对应的内容,例如:“推销话术”这一概念中可以包括例本文档来自技高网
...

【技术保护点】
1.一种广告识别方法,其特征在于,包括:/n使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息;/n根据预设的至少一种权重因素生成所述疑似广告信息的广告权重;所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重,用户已发布的广告信息占用户已发布的全部媒体信息的比重,以及所述疑似广告信息中的图片数量中的一个或多个;/n将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。/n

【技术特征摘要】
1.一种广告识别方法,其特征在于,包括:
使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息;
根据预设的至少一种权重因素生成所述疑似广告信息的广告权重;所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重,用户已发布的广告信息占用户已发布的全部媒体信息的比重,以及所述疑似广告信息中的图片数量中的一个或多个;
将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。


2.根据权利要求1所述的方法,其特征在于,所述使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息之前,还包括:
所述媒体信息进行预处理;所述预处理包括从所述媒体信息中去除特定字符,对所述媒体信息进行字符转换,以及对所述媒体信息进行汉字转数字的一个或多个。


3.根据权利要求1所述的方法,其特征在于,
所述分类模型包括至少一个分类节点,每个所述分类节点对应一个广告类别,每个广告类别对应一个类别权重;每个所述分类节点包括至少一个分类表达式,所述分类表达式用于从所述媒体信息中识别出所述疑似广告信息。


4.根据权利要求3所述的方法,其特征在于,所述根据预设的至少一种权重因素生成所述疑似广告信息的广告权重,包括:
将每一种所述权重因素乘以对应的权重系数,得到每一种所述权重因素的权值;
将所述疑似广告信息的类别权重与各个所述因素权重的权值相加,得到所述广告权重。


5.根据权利要求4所述的方法,其特征在于,
所述权重因素的权值包括第一权值,所述第一权值为所述疑似广告信息占所述媒体信息全文的长度比重与第一权重系数的乘积。


6.根据权利要求4所述的方法...

【专利技术属性】
技术研发人员:任宁晋耀红李德彦
申请(专利权)人:中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1