The embodiment of the application provides an advertisement recognition method and device, which can obtain the suspected advertisement information from the media information published by the user using the classification model including the classification expression; generate the advertisement weight of the suspected advertisement information according to at least one preset weight factor; the weight factor includes the proportion of the suspected advertisement information in the length of the full text of the media information , the proportion of the advertising information published by the user in the total media information published by the user, and one or more pictures in the suspected advertising information; the suspected advertising information whose advertising weight is greater than the preset threshold is determined as the advertising information. The method provided in the embodiment of the application uses the classification model and the advertisement weight to carry out two-level screening of the media information, first determining the suspected advertisement information, and then determining whether the suspected advertisement information is an advertisement according to the advertisement weight, so as to accurately identify the advertisement, solving the problem that the prior art cannot effectively identify the advertisement in the social platform in a timely manner.
【技术实现步骤摘要】
一种广告识别方法及装置
本申请涉及自然语言处理
,尤其涉及一种广告识别方法及装置。
技术介绍
各类社交平台,例如微博、微信、贴吧和论坛等,往往会成为广告投放者的目标。广告投放者通过在各个社交平台大量注册账号,并大量生成广告留言、回复等方式进行广告投放,导致社交平台的正常内容中穿插了大量的广告内容,降低了社交平台的内容质量,使用户在社交平台浏览内容时被动地浏览到广告信息,影响用户的使用体验。目前,为了治理在社交平台中出现的各类广告,社交平台的管理者或运营者通常会设置一些具有审核权限的账号,并由持有这些账号的人员以人工巡查的方式找出广告并进行删除。但是,广告投放者为了提高广告投放量通常使用软件进行自动投放,广告投放数量巨大,导致采用人工巡查去除广告的方法难以对这些广告进行有效且及时地遏制。因此,社交平台的广告问题始终得不到有效地解决。
技术实现思路
本申请实施例提供了一种广告识别方法及装置,以解决现有技术无法及时有效地识别社交平台内广告的问题。第一方面,本申请实施例提供了一种广告识别方法,包括:使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息;根据预设的至少一种权重因素生成所述疑似广告信息的广告权重;所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重,用户已发布的广告信息占用户已发布的全部媒体信息的比重,以及所述疑似广告信息中的图片数量中的一个或多个;将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。第二方面,本申请实施例提供了一种广告识别装置,包括 ...
【技术保护点】
1.一种广告识别方法,其特征在于,包括:/n使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息;/n根据预设的至少一种权重因素生成所述疑似广告信息的广告权重;所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重,用户已发布的广告信息占用户已发布的全部媒体信息的比重,以及所述疑似广告信息中的图片数量中的一个或多个;/n将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。/n
【技术特征摘要】
1.一种广告识别方法,其特征在于,包括:
使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息;
根据预设的至少一种权重因素生成所述疑似广告信息的广告权重;所述权重因素包括所述疑似广告信息占所述媒体信息全文的长度比重,用户已发布的广告信息占用户已发布的全部媒体信息的比重,以及所述疑似广告信息中的图片数量中的一个或多个;
将所述广告权重大于预设阈值的所述疑似广告信息确定为广告信息。
2.根据权利要求1所述的方法,其特征在于,所述使用包含分类表达式的分类模型从用户发布的媒体信息中获取疑似广告信息之前,还包括:
所述媒体信息进行预处理;所述预处理包括从所述媒体信息中去除特定字符,对所述媒体信息进行字符转换,以及对所述媒体信息进行汉字转数字的一个或多个。
3.根据权利要求1所述的方法,其特征在于,
所述分类模型包括至少一个分类节点,每个所述分类节点对应一个广告类别,每个广告类别对应一个类别权重;每个所述分类节点包括至少一个分类表达式,所述分类表达式用于从所述媒体信息中识别出所述疑似广告信息。
4.根据权利要求3所述的方法,其特征在于,所述根据预设的至少一种权重因素生成所述疑似广告信息的广告权重,包括:
将每一种所述权重因素乘以对应的权重系数,得到每一种所述权重因素的权值;
将所述疑似广告信息的类别权重与各个所述因素权重的权值相加,得到所述广告权重。
5.根据权利要求4所述的方法,其特征在于,
所述权重因素的权值包括第一权值,所述第一权值为所述疑似广告信息占所述媒体信息全文的长度比重与第一权重系数的乘积。
6.根据权利要求4所述的方法...
【专利技术属性】
技术研发人员:任宁,晋耀红,李德彦,
申请(专利权)人:中科鼎富北京科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。