非监督检测及在文本数据中字簇集的分类制造技术

技术编号：10245604 阅读：101 留言：0更新日期：2014-07-23 22:10

一种从多个源获得的数据集分类的装置，包括：符号频率确定单元（24），其确定第一数据集集合中的符号的出现频率和第二数据集集合中的符号的出现频率；重要性确定单元（26），其基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最高有效符号；分组单元（28），其根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组，以及等级排列单元（30），其根据等级排列方案排列与符号组相关的数据集的等级。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】非监督检测及在文本数据中字簇集的分类
本专利技术涉及数据集的分类，特别是涉及一种从多个不同源获得的数据集分类的方法、装置及计算机程序产品。
技术介绍
数据集例如电子文件、电子论文、博客及线上讨论论坛中的数据等可存在于各种不同计算机上。这些数据集通常更多的是由公开提供的。随着因特网的引入，从任何一台电脑上获取此类数据集都将成为可能。从而可能从广泛的数据源中获得这些数据集。因此，因特网上存在数量庞大的信息。该丰富的信息用于许多不同领域将会非常有趣，例如：用来确定社会和消费者的不同需求。然而，信息量如此巨大以至于难以从其获得任何综合及有用的知识。因此，数据集的组织和分类受到广泛关注以致于高级信息分析可以应用于数据集的处理。数据集的组织、结构化以及搜索方面存在许多技术。各种数据集分类的方法因此被提出。例如，US2010/0205525阐述基于文本中品质特性的出现频率，如字符块的出现频率，将文本自动分类。US2009/0094021阐述了从多个文件簇集来确定多个主题。US6094653阐述了将字分类成字簇集。也存在多种对文件分组的方法。例如EP2045739描述了在文件中选择多个字作为关键字及根据关键字将文件簇集以产生簇集，其中每一个簇集对应于一个主题。US6078913描述将所选文件簇集为层次状树形结构。US7809718阐述了文件中元数据的发现，并且如果字存在于元数据中，那么文件中的字的重要性将会着重提出。US6778995描述了从文件提取多个字词及在文件集合上建立概念空间、识别文件之间相关的字词及用具有归属于特定变异数的文件空间中的角与簇集角之间的差的来填充簇...
非监督检测及在文本数据中字簇集的分类

【技术保护点】
一种将从多个源（14、16、18、20）获得数据集（DS1、DS2、DS3、…、DSn）分类的方法，所述数据集由符号（S1、S2、S3、…、Sm）组成，该方法包括：确定（36）第一数据集集合（C）中的符号的出现频率；确定（38）第二数据集集合中的符号的出现频率；基于第一集合中的出现频率和第二集合中的出现频率确定（40）第二集合中的最重要的符号（S1、S2）；根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组（42）成若干组（G），以及使用等级排列方案排列（44）与符号组相关的数据集的等级。

【技术特征摘要】
【国外来华专利技术】2011.11.15 EP 11189099.21.一种将从多个源(14、16、18、20)获得数据集DS1、DS2、DS3、…、DSn分类的方法，所述数据集由符号S1、S2、S3、…、Sm组成，该方法包括：确定第一数据集集合C中的符号的出现频率；确定第二数据集集合中的符号的出现频率；基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最重要的符号S1、S2；所述确定第二集合中的最重要的符号基于：一个符号在第二集合中出现的概率p1，jsc(wjsc)，而p1，jsc(wjsc)则是在给定了相同符号在第一集合出现的概率的条件下，利用如下公式计算得到，wjsc∈Bin(nsc，p0j)其中nsc是第二集合中的所使用符号的数目，wjsc是符号j已在第二集合中使用的次数，p0j是从第一集合取出的特定符号是符号j的概率，(1-p0j)是所讨论的符号不为符号j的概率，并且p1，jsc(k)是在假定符号j发生的次数遵循具有给定参数的二项式分布的情况下，符号j在第二集合中出现k次的概率，根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组G，以及使用等级排列方案排列与符号组相关的数据集的等级，其中，第一集合中符号频率的确定不需要使用数据集的任意前述分类。2.根据权利要求1所述的方法，还包括从所述源收集数据集。3.根据任意前述权利要求所述的方法，还包括针对至少一个组提供排列为最高等级的数据集的位置识别符。4.根据权利要求1或2所述的方法，其中使用主成分分析法进行符号分组。5.根据权利要求1或2所述的方法，其中使用例如沃德聚类分析法的聚类分析进行符号分组。6.根据权利要求1或2所述的方法，其中使用多维尺度法进行符号分组。7.根据权利要求1或2所述的方法，其中第二集合是第一集合的一部分SC。8.根据权利要求7所述的方法，其中这些数据集的集合基于时间将划分成多个部分，例如基于特定时间点或时间间隔。9.根据权利要求7所述的方法，其中基于这些数据集的分级将这些数据集的集合划分成多个部分。10.根据权利要求9所述的方法，其中这些数据集是文件以...

【专利技术属性】
技术研发人员：汤姆斯·拉尔森，麦斯·林格伦，
申请(专利权)人：凯洛斯未来集团公司，
类型：发明
国别省市：瑞典;SE

全部详细技术资料下载我是这个专利的主人