从候选数据集获取目标数据集的方法和装置以及翻译机器制造方法及图纸

技术编号:7239970 阅读:434 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及从候选数据集获取目标数据集的方法和装置以及翻译机器。其中,从目标数据样本提取特征;利用所述特征从所述候选数据集中抽取目标数据,形成目标数据集。根据本发明专利技术的实施方式,能够根据所提供的样本来从候选数据集中抽取目标数据。

【技术实现步骤摘要】

本申请涉及数据提取,具体而言,涉及一种从候选数据集获取目标数据集的方法和装置。此外,本申请还涉及一种翻译机器。
技术介绍
传统地,根据特定的目标数据样本从候选数据集中获取特定的目标数据通常通过判断候选数据集中的数据和目标数据样本之间的相似度手工地进行选择,或者甚至从候选数据级中随机选取一些数据作为目标数据。明显地,这种传统的方式和方法不能提供高质量的目标数据。
技术实现思路
在下文中将给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序根据本申请的实施例,从目标数据样本提取特征,利用所述特征从所述候选数据集中抽取目标数据,从而形成目标数据集。这样,基于针对所述特定目的的目标数据样本从候选数据集抽取子集形成目标数据集。所形成的目标数据集的生成更为迅速。此外,所形成的目标数据集更为符合后续处理的要求。附图说明本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中图1示出了根据本专利技术的一个实施例的用于从候选数据集获取目标数据集的方法的流程图,图2示出了根据本专利技术的另一实施例的用于从候选数据集获取目标数据集的方法的流程图,图3示出了根据本专利技术的另一实施例的用于从候选数据集获取目标数据集的方法的流程图,图4示出了根据本专利技术的另一实施例的用于从候选数据集获取目标数据集的方法的流程图,图5示出了根据本专利技术的一个实施例的用于从候选数据集获取目标数据集的装置的示意性结构图,图6示出了根据本专利技术的一个实施例的用于从候选数据集获取目标数据集的装置的抽取单元的示意性结构图,图7示出了根据本专利技术的另一实施例的用于从候选数据集获取目标数据集的装置的抽取单元的示意性结构图,图8示出了根据本专利技术的另一实施例的用于从候选数据集获取目标数据集的装置的抽取单元的示意性结构图,以及图9示出了示出了可用于实施根据本专利技术的实施例的计算机的示意性框图。 具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构,而省略了与本专利技术关系不大的其他细节。第一实施例图1示出了根据本申请的实施例的从候选数据集获取目标数据集的方法的流程图。为了从候选数据集获取目标数据集,在SllO中从目标数据样本提取特征。该目标数据样本可以包括一个或多个数据,其中数据包括数据元素。数据可以包括字符串、句子或者图片集。相应地,数据元素可以是字符、词语或者图片。显然,所述特征可以是任何特征,作为非限制性的例子,所提取的特征可以由数据元素中的至少一部分构成。例如,如果目标数据样本为一个句子,则其数据元素是构成该句子的词语,而提取到的特征则是句子中的至少一个词语。在从目标数据样本中提取到多个特征时,基于特征在目标数据样本中出现的频率确定各个特征的权重。选取高权重的特征作为目标数据样本的特征。换言之,特征在目标数据样本中出现的频率越高,则其权重就越高。在S120中,利用所述特征从候选数据集中抽取目标数据,形成目标数据集。候选数据集可以是涵盖目标数据集的数据集并且可以包括图片、文本或语料等等。待形成的目标数据集是特定于目标数据样本的数据集。借助S120,根据在SllO中提取到的目标数据样本的特征,在候选数据集中找出带有所述特征的候选数据,以形成目标数据集。在此,候选数据同样可以包括数据元素,其数据元素也可以是字符、词语或图片。通过该方法,例如可以根据用户的所感兴趣的领域的信息(在此为目标数据样本)从大的信息库或信息集合(在此为候选数据集)中提取相关的信息(在此为目标数据),从而形成用户定制的信息(在此为目标数据集)。例如,用户对计算机领域的信息感兴趣,因此可以利用一篇与计算机领域相关的文章作为样本,从互联网上众多的信息中搜索到与该领域相关的信息,并且选取与计算机领域紧密相关的信息作为目标数据集提供给该用户。第二实施例如从图2中可以看到的那样,该实施例是对图1所示的实施例的改进方案。需要指出的是,为了描述的简洁而省去了与图1中作用和功能相同的部分的描述。在SllO中,从目标数据样本提取特征。在该实施例中的SllO与图1所示的实施例中的Sl 10相同,故在此不再赘述。在S130中,利用特征来查询候选数据集。通过将在SllO中提取的目标数据样本的特征作为信息检索关键词来对候选数据集的候选数据进行查询。在此,关键词可以是字符、词语或图片。换言之,用所提取的特征对候选数据集中的各个候选数据进行比对,找出带有该特征的候选数据。在S140中,根据查询到的候选数据与目标数据样本的相似度而获得目标数据。在此,相似度可以根据查询到的候选数据包含特征的多少来确定。也就是说,查询到的候选数据包含的特征越多,则候选数据就与目标样本越相似,反之就不相似。当然,也可以采用特征在候选数据中出现的频率作为相似度评价的基础。例如,在多个带有该特征的候选数据中该特征在候选数据中的出现的频率越高,则相似度越高,反之就低。当然,也可以采用多种评价方式来对相似度进行综合评价。此外,相似度还可以借助信息检索方法获得的相似度评分来确定。第三实施例如从图3中可以看到的那样,该实施例是对图1所示的实施例的改进。需要指出的是,为描述的简洁而省去了与图1中作用和功能相同的部分的描述。在SllO中,从目标数据样本提取特征。在该实施例中的SllO与图1所示的实施例中的Sl 10相同,故在此不再赘述。在S150中,利用在SllO中提取的目标数据样本的特征对候选数据集中的候选数据进行聚类。在S160中,根据聚类所产生的类与目标数据样本的相似度来选择合适的类作为所述目标数据。在此,合适的类应理解为目标数据样本与聚类所产生的类相似度高的类。第四实施例如从图4中可以看到的那样,图4所示的实施例是第二实施例和第三实施例的组口 O在SllO中,从目标数据样本提取特征。在S130中,利用特征来查询候选数据集,并且在S170中,判断查询到的候选数据与目标数据样本的相似度。在S150中,利用在SllO中提取的目标数据样本的特征对候选数据集中的候选数据进行聚类,并且在S180中判断聚类所产生的类与目标数据样本的相似度。为了描述的简洁,省去了在图4中与图2和图3中作用和功能相同的部分的详细描述。其具体内容请参见针对图2和图3的描述,在此不再赘述。在S190中,将根据聚类所产生的类与目标数据样本的相似度同查询到的候选数据与目标数据样本的相似度比较,根据比较结果来选择合适的候选数据作为所述目标数据。将图本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:郑仲光何中军孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术