用于文本的数据处理方法及其系统技术方案

技术编号:21478559 阅读:35 留言:0更新日期:2019-06-29 05:01
本公开提供了一种用于文本的数据处理方法,包括:获取文本的文字内容,以确定文本对应的文本分类信息;获取文本中包含的配图,以确定配图对应的配图分类信息;计算配图分类信息与文本分类信息的第一相似度;以及根据计算得到的第一相似度,确定配图与文本的文字内容是否匹配。本公开还提供了一种用于文本的数据处理系统、一种计算机系统和一种计算机可读存储介质。

【技术实现步骤摘要】
用于文本的数据处理方法及其系统
本公开涉及数据处理领域,更具体地,涉及一种用于文本的数据处理方法和用于文本的数据处理系统、计算机系统和计算机可读存储介质。
技术介绍
随着科技的快速发展,使用APP阅读已经发展成为一种时尚。随着用户阅读水平的不断提高,优质内容的阅读材料越来越受到青睐。在相关技术中,优质内容的阅读材料大多是人为编辑出来的,例如传统的媒体如凤凰、新浪等,也有一些是通过大规模爬虫结合推荐引擎处理后得到的,例如今日头条等。以文章为例,一篇高质量的文章,除了要有优质的内容之外,还要图文并茂,并且配图要与文章内容紧密相关。然而,在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:相关技术在检测一篇文章是否是高质量的文章时,难以高效地检测出文章内容与配图是否匹配。
技术实现思路
有鉴于此,本公开提供了一种用于文本的数据处理方法和用于文本的数据处理系统。本公开的一个方面提供了一种用于文本的数据处理方法,包括获取文本的文字内容,以确定上述文本对应的文本分类信息;获取上述文本中包含的配图,以确定上述配图对应的配图分类信息;计算上述配图分类信息与上述文本分类信息的第一相似度;以及根据计算得到的上述第一相似度,确定上述配图与上述文本的文字内容是否匹配。根据本公开的实施例,上述方法还包括获取上述配图的描述信息;获取上述文本的摘要信息;计算上述配图的描述信息与上述文本的摘要信息的第二相似度;以及根据上述第一相似度和上述第二相似度,确定上述配图与上述文本的文字内容是否匹配。根据本公开的实施例,计算上述配图的描述信息与上述文本的摘要信息的第二相似度包括:对上述描述信息和上述摘要信息分别进行分词处理,得到属于上述描述信息的一个或多个词语以及属于上述摘要信息的一个或多个词语;根据分词处理结果,确定上述描述信息中包含的每个词语的重复次数以及上述摘要信息中包含的每个词语的重复次数;根据确定出的上述描述信息中包含的每个词语的重复次数,确定上述描述信息的第一词频向量;根据确定出的上述摘要信息中包含的每个词语的重复次数,确定上述摘要信息的第二词频向量;以及根据上述第一词频向量和上述第二词频向量,计算上述第二相似度。根据本公开的实施例,根据上述第一相似度和上述第二相似度,确定上述配图与上述文本的文字内容是否匹配包括:预先设定上述第一相似度的权重为第一权重;预先设定上述第二相似度的权重为第二权重;按照预设算法基于上述第一相似度、上述第一权重、上述第二相似度和上述第二权重进行计算,得到对应的相似度计算值;以及若上述相似度计算值大于相似度阈值,则确定上述配图与上述文本的文字内容匹配。根据本公开的实施例,获取文本的文字内容,以确定上述文本对应的文本分类信息包括:获取上述文本的正文;对上述正文进行分析,得到上述正文的一个或多个主题;对上述一个或多个主题进行分类;以及根据上述一个或多个主题的分类结果,确定上述文本对应的文本分类信息。根据本公开的实施例,上述配图所属的类别包括多个,上述文本所属的类别也包括多个,计算上述配图分类信息与上述文本分类信息的第一相似度包括:确定上述配图属于每个类别的概率,其中,上述配图属于每个类别的概率用于表征上述配图属于每个类别的可能性的大小;确定上述文本属于每个类别的概率;以及根据上述配图属于每个类别的概率与上述文本属于每个类别的概率,计算上述第一相似度。本公开的另一方面还提供了一种用于文本的数据处理系统,包括第一获取模块、第二获取模块、第一计算模块和第一确定模块。第一获取模块用于获取文本的文字内容,以确定上述文本对应的文本分类信息;第二获取模块用于获取上述文本中包含的配图,以确定上述配图对应的配图分类信息;第一计算模块用于计算上述配图分类信息与上述文本分类信息的第一相似度;以及第一确定模块,用于根据计算得到的上述第一相似度,确定上述配图与上述文本的文字内容是否匹配。根据本公开的实施例,上述系统还包括第三获取模块、第四获取模块、第二计算模块和第二确定模块。第三获取模块用于获取上述配图的描述信息;第四获取模块用于获取上述文本的摘要信息;第二计算模块用于计算上述配图的描述信息与上述文本的摘要信息的第二相似度;以及第二确定模块用于根据上述第一相似度和上述第二相似度,确定上述配图与上述文本的文字内容是否匹配。根据本公开的实施例,上述第二计算模块包括处理单元、第一确定单元、第二确定单元、第三确定单元和第一计算单元。处理单元用于对上述描述信息和上述摘要信息分别进行分词处理,得到属于上述描述信息的一个或多个词语以及属于上述摘要信息的一个或多个词语;第一确定单元用于根据分词处理结果,确定上述描述信息中包含的每个词语的重复次数以及上述摘要信息中包含的每个词语的重复次数;第二确定单元用于根据确定出的上述描述信息中包含的每个词语的重复次数,确定上述描述信息的第一词频向量;第三确定单元用于根据确定出的上述摘要信息中包含的每个词语的重复次数,确定上述摘要信息的第二词频向量;以及第一计算单元用于根据上述第一词频向量和上述第二词频向量,计算上述第二相似度。根据本公开的实施例,上述第二确定模块包括第一设定单元、第二设定单元、第二计算单元和第四确定单元:第一设定单元用于预先设定上述第一相似度的权重为第一权重;第二设定单元用于预先设定上述第二相似度的权重为第二权重;第二计算单元用于按照预设算法基于上述第一相似度、上述第一权重、上述第二相似度和上述第二权重进行计算,得到对应的相似度计算值;以及第四确定单元用于若上述相似度计算值大于相似度阈值,则确定上述配图与上述文本的文字内容匹配。根据本公开的实施例,上述第一获取模块包括第一获取单元、分析单元、分类单元和第五确定单元。第一获取单元用于获取上述文本的正文;分析单元用于对上述正文进行分析,得到上述正文的一个或多个主题;分类单元用于对上述一个或多个主题进行分类;以及第五确定单元用于根据上述一个或多个主题的分类结果,确定上述文本对应的文本分类信息。根据本公开的实施例,上述配图所属的类别包括多个,上述文本所属的类别也包括多个,上述第一计算模块包括第六确定单元、第七确定单元和第三计算单元。第六确定单元用于确定上述配图属于每个类别的概率,其中,上述配图属于每个类别的概率用于表征上述配图属于每个类别的可能性的大小;第七确定单元用于确定上述文本属于每个类别的概率;以及第三计算单元用于根据上述配图属于每个类别的概率与上述文本属于每个类别的概率,计算上述第一相似度。本公开的另一个方面提供了一种计算机系统,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的数据处理方法。本公开的另一方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的数据处理方法。本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的数据处理方法。根据本公开的实施例,通过计算文本中配图的分类与文本的分类的相似度,并根据相似度大小确定图文是否匹配,所以至少部分地解决了相关技术中通过人工检测效率低的问题,达到了快速检测图文是否匹配的效果,进而达到了节本文档来自技高网...

【技术保护点】
1.一种用于文本的数据处理方法,包括:获取文本的文字内容,以确定所述文本对应的文本分类信息;获取所述文本中包含的配图,以确定所述配图对应的配图分类信息;计算所述配图分类信息与所述文本分类信息的第一相似度;以及根据计算得到的所述第一相似度,确定所述配图与所述文本的文字内容是否匹配。

【技术特征摘要】
1.一种用于文本的数据处理方法,包括:获取文本的文字内容,以确定所述文本对应的文本分类信息;获取所述文本中包含的配图,以确定所述配图对应的配图分类信息;计算所述配图分类信息与所述文本分类信息的第一相似度;以及根据计算得到的所述第一相似度,确定所述配图与所述文本的文字内容是否匹配。2.根据权利要求1所述的方法,其中,所述方法还包括:获取所述配图的描述信息;获取所述文本的摘要信息;计算所述配图的描述信息与所述文本的摘要信息的第二相似度;以及根据所述第一相似度和所述第二相似度,确定所述配图与所述文本的文字内容是否匹配。3.根据权利要求2所述的方法,其中,计算所述配图的描述信息与所述文本的摘要信息的第二相似度包括:对所述描述信息和所述摘要信息分别进行分词处理,得到属于所述描述信息的一个或多个词语以及属于所述摘要信息的一个或多个词语;根据分词处理结果,确定所述描述信息中包含的每个词语的重复次数以及所述摘要信息中包含的每个词语的重复次数;根据确定出的所述描述信息中包含的每个词语的重复次数,确定所述描述信息的第一词频向量;根据确定出的所述摘要信息中包含的每个词语的重复次数,确定所述摘要信息的第二词频向量;以及根据所述第一词频向量和所述第二词频向量,计算所述第二相似度。4.根据权利要求2所述的方法,其中,根据所述第一相似度和所述第二相似度,确定所述配图与所述文本的文字内容是否匹配包括:预先设定所述第一相似度的权重为第一权重;预先设定所述第二相似度的权重为第二权重;按照预设算法基于所述第一相似度、所述第一权重、所述第二相似度和所述第二权重进行计算,得到对应的相似度计算值;以及若所述相似度计算值大于相似度阈值,则确定所述配图与所述文本的文字内容匹配。5.根据权利要求1所述的方法,其中,获取文本的文字内容,以确定所述文本对应的文本分类信息包括:获取所述文本的正文;对所述正文进行分析,得到所述正文的一个或多个主题;对所述一个或多个主题进行分类;以及根据所述一个或多个主题的分类结果,确定所述文本对应的文本分类信息。6.根据权利要求1所述的方法,其中,所述配图所属的类别包括多个,所述文本所属的类别也包括多个,计算所述配图分类信息与所述文本分类信息的第一相似度包括:确定所述配图属于每个类别的概率,其中,所述配图属于每个类别的概率用于表征所述配图属于每个类别的可能性的大小;确定所述文本属于每个类别的概率;以及根据所述配图属于每个类别的概率与所述文本属于每个类别的概率,计算所述第一相似度。7.一种用于文本的数据处理系统,包括:第一获取模块,用于获取文本的文字内容,以确定所述文本对应的文本分类信息;第二获取模块,用于获取所述文本中包含的配图,以确定所述配图对应的配图分类信息;第一计算模块,用于计算所述配图分类信息与所述文本分类信息的第一相似度;以及第一确定模块,用于根据计算得到的...

【专利技术属性】
技术研发人员:朱德伟李树前李伟奇稂顾
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1