基于大数据的互联网广告智能监测系统技术方案

技术编号:38316428 阅读:12 留言:0更新日期:2023-07-29 08:58
本发明专利技术涉及用于数据处理技术领域,具体涉及基于大数据的互联网广告智能监测系统,包括:采集数据文本和对比文本;利用相似度对数据文本和对比文本进行分组得到对应分组;计算每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数共三个参数;根据三个参数得到Dice相似度权重;利用Dice相似度权重得到文本相似度并判断互联网广告是否涉嫌抄袭。本发明专利技术根据文本数据特征计算Dice交集数据的频率、位置分布和结构的相似性,并结合Dice算法综合判断文本与对比文本的相似性,提高了利用Dice算法判断两个广告文本的相似性的准确性。两个广告文本的相似性的准确性。两个广告文本的相似性的准确性。

【技术实现步骤摘要】
基于大数据的互联网广告智能监测系统


[0001]本专利技术涉及数据处理
,具体涉及基于大数据的互联网广告智能监测系统。

技术介绍

[0002]广告相似的恶意竞争是指竞争对手在广告中使用与其他公司类似的商标、标志、品牌名称、产品名称或广告语,以混淆消费者并获取不当竞争优势的行为。这种行为违反了商标法和不正当竞争法。现有技术是通过对比广告文本的Dice相似度来判断广告是否存在抄袭,模仿等不正当竞争关系。Dice相似度是一种用于衡量两个集合相似程度的度量方法,它是通过计算两个集合中共同元素的数量来衡量它们的相似度。但是dice相似度只能通过相同字符占比确定文本相似度,无法通过结构,位置等信息确定文本相似度,且无法处理相同的重复字符,对文本相似性判断不够准确。

技术实现思路

[0003]本专利技术提供基于大数据的互联网广告智能监测系统,以解决现有的问题。
[0004]本专利技术的基于大数据的互联网广告智能监测系统采用如下技术方案:本专利技术一个实施例提供了基于大数据的互联网广告智能监测系统,该系统包括以下模块:文本采集模块,用于采集数据文本和对比文本;数据分组模块,用于利用相似度对数据文本和对比文本进行分组得到对应分组;参数计算模块,用于计算每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数;权重拟合模块,用于将每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数得到相似度权数,并利用相似度权数得到Dice相似度权重;相似判定模块,用于利用Dice相似度权重得到整个数据文本和对比文本的相似度并判断互联网广告是否涉嫌抄袭。
[0005]优选的,所述数据文本和对比文本的获取方法为:在所有互联网广告文本中,按照文本的出现时间进行采集,在所有采集到的文本中选择两个文本,将两个文本中出现时间较为靠前的文本记为对比文本,两个文本中出现时间较为靠后的文本记为数据文本。
[0006]优选的,所述利用相似度对数据文本和对比文本进行分组得到对应分组,包括的具体步骤如下:对每个数据文本和每个对比文本进行Dice相似度计算得到每个数据文本和每个对比文本的相似度,将每个数据文本和与其相似度最高的对比文本进行关联,得到对应字符,最后把所有的对应字符放入一个集合中,将该集合记为对应分组。
[0007]优选的,所述字符频率差异程度参数的具体计算公式如下:其中,为第i个对应分组下的字符频率差异程度参数,i表示所有的I个对应分组中第i个对应分组且有,为第i个对应分组下第q个交集字符在数据文本中出现的次数,为第i个对应分组下第q个交集字符在对比文本中出现的次数,q为每个分组中数据文本和对比文本字符集合的交集中的第q个字符,共Q个且有。
[0008]优选的,所述交集字符位置分布权重影响参数的具体获取步骤如下:在每个对应分组中,将每个交集字符在数据文本和对比文本中的位置分别记为和,并计算如下公式:其中,为第i个对应分组下的交集字符位置分布权重影响参数,表示第q个交集字符在第i个对应分组内数据文本中的位置,表示第q个交集字符在第i个对应分组内对比文本中的位置,和分别为第i个对应分组内数据文本和对比文本的交集字符分别在数据文本和对比文本中的位置的平均值,为第i个对应分组内交集字符在数据文本中占用的位置的数量,为第i个对应分组内交集字符在对比文本中占用的位置的数量,为第i个对应分组下第q个交集字符在数据文本中出现的次数,为第i个对应分组下第q个交集字符在对比文本中出现的次数,q为每个分组中数据文本和对比文本字符集合的交集中的第q个字符,共Q个且有。
[0009]优选的,所述数据位置相似程度权重参数的具体获取步骤如下:获取每个对应分组中的每种字符在数据文本和对比文本中的位置,计算所有对应分组中的所有字符在数据文本和对比文本中的平均位置,并计算每个对应分组中的每种字符在数据文本和对比文本中的位置与所有字符的平均位置的差异值,并将差异值进行归一化,得到每个对应分组的数据位置相似程度权重参数。
[0010]优选的,所述将每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数得到相似度权数,并利用相似度权数得到Dice相似度权重,包括的具体步骤如下:首先,将每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数分别加一,将加一后的结果相乘,得到每个对应分组下数据文本和对比文本的相似度权数;最后,再将每个对应分组下数据文本和对比文本的相似度权数进行归一化操作,得到每个对应分组的Dice相似度权重。
[0011]优选的,所述利用Dice相似度权重得到整个数据文本和对比文本的相似度,包括
的具体步骤如下:计算每个对应分组内数据文本和对比文本的Dice相似度,将每个对应分组内数据文本和对比文本的Dice相似度与每个对应分组的Dice相似度权重相乘,得到每个对应分组的相似因子,计算所有对应分组的相似因子的算数均值,将算术均值作为整个数据文本和对比文本的相似度。
[0012]本专利技术的技术方案的有益效果是:根据文本数据特征,计算Dice交集数据的频率,位置分布,和结构的相似性结合Dice算法综合判断文本与对比文本的相似性,解决了dice相似度无法通过结构,位置等信息确定文本相似度,且无法处理相同的重复字符的问题,可以更准确的判断两个广告文本的相似性。
附图说明
[0013]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本专利技术基于大数据的互联网广告智能监测系统的系统结构图。
具体实施方式
[0015]为了更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的基于大数据的互联网广告智能监测系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0016]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。
[0017]下面结合附图具体的说明本专利技术所提供的基于大数据的互联网广告智能监测系统的具体方案。
[0018]请参阅图1,其示出了本专利技术一个实施例提供的基于大数据的互联网广告智能监测系统的步骤流程图,该系统包括以下模块:文本采集模块S001,用于采集数据文本和对比文本。
[0019]在所有互联网广告文本中,按照文本的出现时间进行采集,在所有采集到的文本中选择两个文本,将两个文本中出现时间较为靠前的文本记为对比文本,两个文本中出现时间较为靠后的文本记为数据文本。需要说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于大数据的互联网广告智能监测系统,其特征在于,该系统包括:文本采集模块,用于采集数据文本和对比文本;数据分组模块,用于利用相似度对数据文本和对比文本进行分组得到对应分组;参数计算模块,用于计算每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数;权重拟合模块,用于将每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数得到相似度权数,并利用相似度权数得到Dice相似度权重;相似判定模块,用于利用Dice相似度权重得到整个数据文本和对比文本的相似度并判断互联网广告是否涉嫌抄袭。2.根据权利要求1所述基于大数据的互联网广告智能监测系统,其特征在于,所述数据文本和对比文本的获取方法为:在所有互联网广告文本中,按照文本的出现时间进行采集,在所有采集到的文本中选择两个文本,将两个文本中出现时间较为靠前的文本记为对比文本,两个文本中出现时间较为靠后的文本记为数据文本。3.根据权利要求1所述基于大数据的互联网广告智能监测系统,其特征在于,所述利用相似度对数据文本和对比文本进行分组得到对应分组,包括的具体步骤如下:对每个数据文本和每个对比文本进行Dice相似度计算得到每个数据文本和每个对比文本的相似度,将每个数据文本和与其相似度最高的对比文本进行关联,得到对应字符,最后把所有的对应字符放入一个集合中,将该集合记为对应分组。4.根据权利要求1所述基于大数据的互联网广告智能监测系统,其特征在于,所述字符频率差异程度参数的具体计算公式如下:其中,为第i个对应分组下的字符频率差异程度参数,i表示所有的I个对应分组中第i个对应分组且有,为第i个对应分组下第q个交集字符在数据文本中出现的次数,为第i个对应分组下第q个交集字符在对比文本中出现的次数,q为每个分组中数据文本和对比文本字符集合的交集中的第q个字符,共Q个且有。5.根据权利要求1所述基于大数据的互联网广告智能监测系统,其特征在于,所述交集字符位置分布权重影响参数的具体获取步骤如下:在每个对应分组中,将每个交集字符在数据文本和对比文本中的位置分别记为和,并计算如下公式:
其中,为第i个对应分组下的交集字符位置...

【专利技术属性】
技术研发人员:邓祥武姜奎书郭禹良丁又可刘毅邹丽娜邱化廷于若诗徐丽
申请(专利权)人:山东省标准化研究院WTOTBT山东咨询工作站
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1