文本数据的处理方法和装置、以及存储介质和电子装置制造方法及图纸

技术编号:22022227 阅读:31 留言:0更新日期:2019-09-04 01:16
本发明专利技术公开了一种文本数据的处理方法和装置、以及存储介质和电子装置。其中,该方法包括:抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;确定多个文本中任意两个文本之间的文本相似度值;根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。本发明专利技术解决了相关技术中对文本数据进行处理的方法效率较低的技术问题。

Text data processing methods and devices, storage media and electronic devices

【技术实现步骤摘要】
文本数据的处理方法和装置、以及存储介质和电子装置
本专利技术涉及数据处理领域,具体而言,涉及一种文本数据的处理方法和装置、以及存储介质和电子装置。
技术介绍
不同数据来源对同一对象的文本数据可能是错误的,例如,对于同一个视频,从不同的视频平台抓取到的数据可能是不同的,可能具有较大差别,并且可能有数据是错误数据,又由于不同平台的文本数据不是归一化的数据,现有技术中通常采用人工方式判断数据的准确性,较难实现对文本数据的准确性判断或数据清洗等处理方式,成本较高且效率较低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供一种文本数据的处理方法和装置、以及存储介质和电子装置,以至少解决相关技术中对文本数据进行处理的方法效率较低的技术问题。根据本专利技术实施例的一个方面,提供了一种文本数据的处理方法,包括:抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;确定多个文本中任意两个文本之间的文本相似度值;根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。根据本专利技术实施例的另一方面,还提供了一种文本数据的处理装置,包括:抓取单元,用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;第一确定单元,用于确定多个文本中任意两个文本之间的文本相似度值;第二确定单元,用于根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;第三确定单元,用于根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。根据本专利技术实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述方法。根据本专利技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的方法。在本专利技术实施例中,通过抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,计算得到的多个文本中任意两个文本之间的文本相似度值,进而根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值,并根据多个文本中文本准确度值符合目标条件的文本,对在目标媒体资源集中的目标媒体资源的文本数据进行处理。因此,解决了相关技术中对文本数据进行处理的方法效率较低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种文本数据的处理方法的应用环境的示意图;图2是根据本专利技术实施例的一种可选的文本数据的处理方法的流程示意图;图3是根据本专利技术实施例的一种可选的文本数据的处理装置的结构示意图;图4是根据本专利技术实施例的一种可选的电子装置的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例的一个方面,提供了一种文本数据的处理方法。可选地,上述文本数据的处理方法可以但不限于应用于如图1所示的应用环境中,如图1所示,终端102可以通过网络104从第一服务器106抓取第一媒体资源集中目标媒体资源的文本数据,得到第一文本,相似的,终端102还可以通过网络104从第二服务器108抓取第二媒体资源集中目标媒体资源的文本数据,得到第二文本,通过网络104从第三服务器110抓取第三媒体资源集中目标媒体资源的文本数据,得到第三文本。确定第一文本、第二文本和第三文本中任意两个文本之间的文本相似度值,并根据每个文本与其它文本的文本相似度情况计算用于度量该文本的文本准确度值,基于多个媒体资源集中多数是数据准确的情况,可以根据文本准确度值符合目标条件(例如,文本准确度值最高、或文本准确度值超过目标阈值)的文本调整在目标媒体资源集中目标媒体资源的文本数据,该目标媒体资源集可以是上述的三个媒体资源集中之一,也可以是上述的三个媒体资源集之外的媒体资源集。在本专利技术实施例中,通过抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,计算得到的多个文本中任意两个文本之间的文本相似度值,进而根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值,并根据多个文本中文本准确度值符合目标条件的文本,对在目标媒体资源集中的目标媒体资源的文本数据进行处理。因此,解决了相关技术中对文本数据进行处理的方法效率较低的技术问题。可选地,在本实施例中,上述终端可以包括但不限于以下至少之一:手机、平板电脑等。上述网络可以包括但不限于无线网络,其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以包括但不限于以下至少之一:PC机及其他用于计算服务的设备。上述只是一种示例,本实施例对此不做任何限定。作为一种可选的实施方式,如图2所示,上述文本数据的处理方法可以包括:S202,抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;S204,确定多个文本中任意两个文本之间的文本相似度值;S206,根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;S208,根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。媒体资源集是媒体资源的集合,每个媒体资源集包括至少一个媒体资源。例如,媒体资源集可以是视频网站、新闻资讯网站等。目标媒体资源为指定的媒体资源,例如,视频网站中的指定视频,或者,新闻资讯网站中对指定事件的报道。目标媒体资源的文本数据是目标媒体资源中所包括的文本数据,可以是目标媒体资源中所有的文本数据,也可以是目标媒体资源中目标项的文本数据。例如,目标视频的文本数据可以是用于描述该视频所有文本数据,或者,目标视频的目标项(例如,目标项可以是标题、导演、演员、时间、标签等任一项或多项)的文本数据,对于新闻资讯网站而言,目标媒体资源的文本数据可以是关于某事件的新闻资讯的文本本文档来自技高网
...

【技术保护点】
1.一种文本数据的处理方法,其特征在于,包括:抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,所述多个文本与所述多个媒体资源集一一对应;确定所述多个文本中任意两个文本之间的文本相似度值;根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;根据所述多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的所述目标媒体资源的文本数据进行处理。

【技术特征摘要】
1.一种文本数据的处理方法,其特征在于,包括:抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,所述多个文本与所述多个媒体资源集一一对应;确定所述多个文本中任意两个文本之间的文本相似度值;根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;根据所述多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的所述目标媒体资源的文本数据进行处理。2.根据权利要求1所述的方法,其特征在于,所述目标条件为文本准确度值超过目标阈值或文本准确度值最高。3.根据权利要求1所述的方法,其特征在于,根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:统计每个文本相对于所述多个文本中其它文本的文本相似度值之和,得到对应文本的文本准确度值。4.根据权利要求1所述的方法,其特征在于,根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:确定每个媒体资源集对应的权重,其中,所述权重用于表示对应媒体资源集的文本数据的准确程度;根据权重公式和每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。5.根据权利要求1所述的方法,其特征在于,确定所述多个文本中任意两个文本之间的文本相似度值包括:对所述多个文本分别进行分词处理,得到每个文本的分词结果;根据所述多个文本的分词结果,生成每个文本的分词向量,其中,每个分词向量的向量维数n为所述多个文本的分词集合中互不相同的分词的总个数,每个分词向量的各个元素值分别用于表示元素对应的分词在对应文本中出现的次数;通过以下公式确定所述多个文本中第一文本的分词向量和第二文本的分词向量之间的夹角余弦值cosθ,以作为所述第一文本和所述第二文本之间的文本相似度值:6.根据权利要求1所述的方法,其特征在于,抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本包括:抓取多个媒体资源集的每个媒体资源集中目标媒体资源的目标项的文本数据,得到多个文本。7.一种文本数据的处理装置,其特征在于,包括:抓取单元,用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文...

【专利技术属性】
技术研发人员:汤见乐
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1