下载实现高质量文本相似度计算的SimBlock算法及实现方法的技术资料

文档序号:33285699

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

针对大数据文本排重场景,如:搜索引擎、资讯专题模块聚合,内容原创和内容剽窃的识别,以及重复灌水帖子、评论相关的内容治理等。本发明一个技术方案是提供了一种能实现相似度计算的SimBlock算法(相似分块矩阵算法),弥补了传统相似度算法“字符交...
该专利属于东方财富信息股份有限公司所有,仅供学习研究参考,未经过东方财富信息股份有限公司授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。