资讯去重方法、设备及计算机可读介质技术

技术编号:32346747 阅读:16 留言:0更新日期:2022-02-20 02:06
本申请提供了资讯去重方案,该方案首先对第一资讯进行实体匹配,获取第一资讯中的实体信息,并对实体信息进行标准化处理,然后对完成标准化处理后的第一资讯进行关键词提取,获取第一资讯的关键词,基于关键词在已有资讯集中进行关键词召回,获取与关键词匹配的第三资讯,判断第一资讯和第三资讯是否重复,并在判断结果为重复时,对第一资讯进行去重处理。由于在该方案中,会在进行关键词提取之前先对第一资讯中的实体信息进行识别并做标准化处理,并且提取的关键词中可以至少包括一部分的实体信息,因此即使第一资讯中的实体表述不一致,也不会在召回和重复性判断时导致被判定为不同的内容,由此可以提升处理的准确性,提升去重效果。去重效果。去重效果。

【技术实现步骤摘要】
资讯去重方法、设备及计算机可读介质


[0001]本申请涉及信息
,尤其涉及一种资讯去重方法、设备及计算机可读介质。

技术介绍

[0002]随着自媒体和智能写稿的快速发展,金融资讯数量大幅增加,为了提高资讯推送或搜索领域的服务质量,就需要剔除内容重复的金融资讯。
[0003]目前,有很多关于长文本去重的方法和系统,也可应用在金融资讯去重的领域。通常的方案一般是先快速地召回候选文本,再利用算法进一步判断当前文本与候选文本相比是否重复,从而在保证性能的同时提高准确率。但是在金融领域中,金融资讯中的一些金融实体经常会存在不同的表述,例如金融资讯A中对于某一基金的表述是华夏中证500指数智选增强A,而在金融资讯B中对该基金的表述是华夏中证500。由于金融资讯的上述特点,现有的去重方案若直接应用于金融资讯的去重,会有由于这些不同的表述将同一实体对象判定为不同的内容,由此导致去重效果不佳的问题。

技术实现思路

[0004]本申请的一个目的是提供一种资讯去重方法、设备及计算机可读介质,用以解决现有技术中去重效果不佳的问题。
[0005]为实现上述目的,本申请提供了一种资讯去重方法,所述方法包括:
[0006]对第一资讯进行实体匹配,获取所述第一资讯中的实体信息,并对所述实体信息进行标准化处理;
[0007]对完成标准化处理后的第一资讯进行关键词提取,获取所述第一资讯的关键词,所述关键词至少包括一部分的所述实体信息;
[0008]基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯;
[0009]判断所述第一资讯和所述第三资讯是否重复,并在判断结果为重复时,对所述第一资讯进行去重处理。
[0010]进一步地,所述实体信息包括数值信息和/或时间信息。
[0011]进一步地,对完成标准化处理后的第一资讯进行关键词提取,包括:
[0012]采用TF

IDF算法对完成标准化处理后的第一资讯进行关键词提取。
[0013]进一步地,在采用TF

IDF算法对完成标准化处理后的第一资讯进行关键词提取时,包含提取获得的关键词的文档数至少大于预设的第一阈值。
[0014]进一步地,基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯,包括:
[0015]以所述关键词作为匹配条件,在已有资讯集中匹配包含所述关键词的第二资讯;
[0016]判断第一资讯相较于第二资讯是否具有额外信息;
[0017]若具有额外信息,将所述第二资讯确定为第三资讯。
[0018]进一步地,所述方法还包括:
[0019]若不具有额外信息,判定所述第一资讯与所述第二资讯重复,对所述第一资讯进行去重处理。
[0020]进一步地,判断第一资讯相较于第二资讯是否具有额外信息,包括:
[0021]根据所述第一资讯的长度length_1和所述第二资讯的长度length_2进行判断,若length_1
×
a>length_2,确定第一资讯相较于第二资讯具有额外信息,其中,a为小于等于1的参数。
[0022]进一步地,判断所述第一资讯和所述第三资讯是否重复,包括:
[0023]根据所述第一资讯的长度length_1和所述第三资讯的长度length_3进行判断;
[0024]若length_1<length_3
×
b,获取所述第一资讯和所述第三资讯的最长公共子串,并在第一长度差值小于等于第二阈值时,确定所述第一资讯和所述第三资讯重复,其中,b为小于等于1的参数,所述第一长度差值为所述最长公共子串和所述第一资讯之间的长度差值;
[0025]若length_3
×
c>length_1≥length_3
×
b,计算所述第一资讯和所述第三资讯的相似度数值,若所述相似度数值满足预设条件,确定所述第一资讯和所述第三资讯重复,其中,c为大于b的参数。
[0026]进一步地,所述相似度数值包括编辑距离和/或余弦相似度,所述相似度数值满足预设条件,包括:
[0027]所述编辑距离小于第三阈值;和/或
[0028]所述余弦相似度大于第四阈值。
[0029]进一步地,在确定所述第一资讯和所述第三资讯重复之前,还包括:
[0030]提取所述第一资讯和所述第三资讯中对应的数值信息;
[0031]以精度较低的数值信息为基准,将对应的数值信息进行精度对齐;
[0032]确定精度对齐后的数值信息相等。
[0033]本申请的一些实施例还提供了一种资讯去重设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行所述资讯去重方法。
[0034]此外,本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现所述资讯去重方法。
[0035]与现有技术相比,本申请提供了资讯去重方案,该方案首先对第一资讯进行实体匹配,获取所述第一资讯中的实体信息,并对所述实体信息进行标准化处理,然后对完成标准化处理后的第一资讯进行关键词提取,获取所述第一资讯的关键词,基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯,判断所述第一资讯和所述第三资讯是否重复,并在判断结果为重复时,对所述第一资讯进行去重处理。由于在该方案中,会在进行关键词提取之前先对第一资讯中的实体信息进行识别并做标准化处理,并且提取的关键词中可以至少包括一部分的实体信息,因此即使第一资讯中的实体表述不一致,也不会在召回和重复性判断时导致被判定为不同的内容,由此可以提升处理的准确性,提升去重效果。
[0036]此外,在本申请实施例提供的另一资讯去重方案中,可以将数值信息和/或时间信
息也作为实体信息中的一种,对其进行标准化之后,以便于应用在后续的重复性判断中,由此可以使得本方案适用于智能写稿所形成的模板类资讯的去重。
附图说明
[0037]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0038]图1为本申请实施例提供的一种资讯去重方法的处理流程图;
[0039]图2为本申请实施例中一种资讯的内容示意图;
[0040]图3为采用本申请实施例提供的去重方案实现资讯去重时的处理流程图;
[0041]图4为本申请实施例中进行实体匹配的一种具体匹配流程示意图;
[0042]图5为本申请实施例中一种扩展实体库的处理流程图;
[0043]图6为本申请实施例中相似度计算及阈值判断的过程示意图;
[0044]图7为本申请实施例中一种用于实现资讯去重的设备的结构示意图;
[0045]附图中相同或相似的附图标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资讯去重方法,其特征在于,所述方法包括:对第一资讯进行实体匹配,获取所述第一资讯中的实体信息,并对所述实体信息进行标准化处理;对完成标准化处理后的第一资讯进行关键词提取,获取所述第一资讯的关键词,所述关键词至少包括一部分的所述实体信息;基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯;判断所述第一资讯和所述第三资讯是否重复,并在判断结果为重复时,对所述第一资讯进行去重处理。2.根据权利要求1所述的方法,其中,所述实体信息包括数值信息和/或时间信息。3.根据权利要求1所述的方法,其中,对完成标准化处理后的第一资讯进行关键词提取,包括:采用TF

IDF算法对完成标准化处理后的第一资讯进行关键词提取。4.根据权利要求3所述的方法,其中,在采用TF

IDF算法对完成标准化处理后的第一资讯进行关键词提取时,包含提取获得的关键词的文档数至少大于预设的第一阈值。5.根据权利要求1所述的方法,其中,基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯,包括:以所述关键词作为匹配条件,在已有资讯集中匹配包含所述关键词的第二资讯;判断第一资讯相较于第二资讯是否具有额外信息;若具有额外信息,将所述第二资讯确定为第三资讯。6.根据权利要求5所述的方法,其中,所述方法还包括:若不具有额外信息,判定所述第一资讯与所述第二资讯重复,对所述第一资讯进行去重处理。7.根据权利要求5所述的方法,其中,判断第一资讯相较于第二资讯是否具有额外信息,包括:根据所述第一资讯的长度length_1和所述第二资讯的长度length_2进行判断,若length_1
×
a>length_2,确定第...

【专利技术属性】
技术研发人员:王业沛
申请(专利权)人:东方财富信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1