实现高质量文本相似度计算的SimBlock算法及实现方法技术

技术编号：33285699 阅读：23 留言：0更新日期：2022-04-30 23:52

针对大数据文本排重场景，如：搜索引擎、资讯专题模块聚合，内容原创和内容剽窃的识别，以及重复灌水帖子、评论相关的内容治理等。本发明专利技术一个技术方案是提供了一种能实现相似度计算的SimBlock算法(相似分块矩阵算法)，弥补了传统相似度算法“字符交集”和“字符串向量化余弦”丢失有序信息的缺陷，补充局域有序信息，提高相似度计算质量：给出的相似度打分对两个字符串的长度不敏感，还能判断逻辑包含关系，相似子字符串的位置和一一对应关系。本发明专利技术的另一个技术方案是提供了一种上述算法适用的分布式计算技术架构，将高并发计算压力分解到高并行度的算法微服务集群中，将高并发读写压力也分解到高速缓存集群中，使得多进程Source/Trans./Sink单体保持轻量级。Source/Trans./Sink单体保持轻量级。Source/Trans./Sink单体保持轻量级。

全部详细技术资料下载

【技术实现步骤摘要】
实现高质量文本相似度计算的SimBlock算法及实现方法

[0001]本专利技术涉及一种实现高质量文本相似度计算的SimBlock算法(相似分块矩阵算法)，能给出两个字符串之间的相似度打分，逻辑包含关系，相似子字符串的位置和一一对应关系。本专利技术还涉及一种技术方案，在大数据文本排重场景下应用该算法，设计的分布式计算技术架构。

技术介绍

[0002]相似度算法是搜索引擎一项基础服务。相似度算法将文本内容(浅层的字符层面、或者更深层次的语义层面)相同或者近似的搜索结果聚合成一组，作为一个搜索结果合并展示，不仅能节省内容版面，提高搜索性能，还节省用户时间和提高用户体验。相似度算法在文本排重、相关推荐、栏目分类、内容过滤、热点发现等场景中有着广泛应用。如图1所示。
[0003]本专利技术的目标是关注相似度算法在大数据文本排重场景下的应用，譬如：
[0004]1.资讯专题模块聚合；
[0005]2.内容原创和内容剽窃的识别；
[0006]3.灌水帖子和灌水评论的治理。
[0007]比较传统的相似度算法分为两类：字符交集模型和字符串向量化余弦模型，如图2所示，具体包括以下算法：
[0008]1、字符交集模型：将字符串打散成字符集合(或者分词集合)，计算2个字符集合之间的交集比例大小得到相似度。存在以下问题：
[0009]a)该算法不适用于2个字符串均较长的情况，2个字符串越长，算法效果越差，因为字符有限，通用字符重合度比较高，但不代表相似。
[0010]b)该算法...

【技术保护点】

【技术特征摘要】
1.实现高质量文本相似度计算的SimBlock算法，其特征在于，包括以下步骤：步骤1、将待比较的字符串一及待比较的字符串二转化为每个字符向量的有序堆叠，从而获得与字符串一对应的矩阵以及与字符串二对应的矩阵表示为：表示为：式中，表示字符串一中的第i个字符向量化之后得到的归一化向量；表示字符串二中的第j个字符向量化之后得到的归一化向量；步骤2、与的余弦表示成如下广义形式：式中，为度规张量，为全1矩阵；为双点积；表示字符串一与字符串二的相关系数矩阵，对于中第i行第j列元素有步骤3、获得中元素非全0的区块，每一个区块对应一个分块矩阵，则每个分块矩阵对应字符串一与字符串二中一个相似的子字符串；分块矩阵越大，则相似的子字符串越长；每个分块矩阵的第一个元素和最后一个元素分别对应一个相似的子字符串的开头和结尾，每个分块矩阵的第一个元素和最后一个元素在中的索引下标分别对应相似子字符串在矩阵与矩阵中的位置；步骤4、初始化矩阵对矩阵进行s
×
s卷积操作，s为卷积核的大小，取值为大于或等于3的奇正整数，更新则有：式中，B
ij
表示中第i行第j列元素，A
kl
表示中第k行第l列元素；步骤5、利用与的余弦来表示字符串一与字符串二的相似度，则有：2.如权利要求1所述的实现高质量文本相似度计算的SimBlock算法，其特征在于，步骤
4中，矩阵初始化为全0矩阵。3.如...

【专利技术属性】
技术研发人员：罗伟杰，
申请(专利权)人：东方财富信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人