非监督检测及在文本数据中字簇集的分类制造技术

技术编号:10245604 阅读:86 留言:0更新日期:2014-07-23 22:10
一种从多个源获得的数据集分类的装置,包括:符号频率确定单元(24),其确定第一数据集集合中的符号的出现频率和第二数据集集合中的符号的出现频率;重要性确定单元(26),其基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最高有效符号;分组单元(28),其根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组,以及等级排列单元(30),其根据等级排列方案排列与符号组相关的数据集的等级。

【技术实现步骤摘要】
【国外来华专利技术】非监督检测及在文本数据中字簇集的分类
本专利技术涉及数据集的分类,特别是涉及一种从多个不同源获得的数据集分类的方法、装置及计算机程序产品。
技术介绍
数据集例如电子文件、电子论文、博客及线上讨论论坛中的数据等可存在于各种不同计算机上。这些数据集通常更多的是由公开提供的。随着因特网的引入,从任何一台电脑上获取此类数据集都将成为可能。从而可能从广泛的数据源中获得这些数据集。因此,因特网上存在数量庞大的信息。该丰富的信息用于许多不同领域将会非常有趣,例如:用来确定社会和消费者的不同需求。然而,信息量如此巨大以至于难以从其获得任何综合及有用的知识。因此,数据集的组织和分类受到广泛关注以致于高级信息分析可以应用于数据集的处理。数据集的组织、结构化以及搜索方面存在许多技术。各种数据集分类的方法因此被提出。例如,US2010/0205525阐述基于文本中品质特性的出现频率,如字符块的出现频率,将文本自动分类。US2009/0094021阐述了从多个文件簇集来确定多个主题。US6094653阐述了将字分类成字簇集。也存在多种对文件分组的方法。例如EP2045739描述了在文件中选择多个字作为关键字及根据关键字将文件簇集以产生簇集,其中每一个簇集对应于一个主题。US6078913描述将所选文件簇集为层次状树形结构。US7809718阐述了文件中元数据的发现,并且如果字存在于元数据中,那么文件中的字的重要性将会着重提出。US6778995描述了从文件提取多个字词及在文件集合上建立概念空间、识别文件之间相关的字词及用具有归属于特定变异数的文件空间中的角与簇集角之间的差的来填充簇集。US7720848阐述一种概率性簇集系统。此外,在搜寻最佳化条件的领域已经作出贡献。例如,US7483892阐述了从代表特别主题事件的文件中编译一个文字相乘的文本矩阵及形成经加权的字词词典,该特定标的物表示每个文件每个字词的发生频率。US5926812阐述了将字簇集分组以及组合相似的字簇集以便于形成一个单独的字簇集。在2010年瑞典隆德大学的工业管理与物流、生产管理系的硕士论文“用于商业智能的文本数据挖掘”中,AndreasEk阐述了如何使用层次聚类、线性回归及基于概率的等级排序来获得信息。然而,该领域中仍然存在改进的需要。
技术实现思路
因此,本专利技术目的在于提供一种数据集集合的改进分类。本专利技术的一个目的在于提供一种将从多个源获得的数据集分类的方法,该方法简化了数据集中有用信息的定位。该目的根据通过从多个源获得的数据集分类的方法得到的本专利技术的第一类变化形式,这些数据集由符号组成,该方法包括:确定第一数据集集合中的符号的出现频率;确定第二数据集集合中的符号的出现频率;基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最重要的符号;将在相同数据集中出现的最重要的符号分组成若干组,以及使用等级排列方案排列与符号组相关的数据集的等级。本专利技术的另一个目的在于提供一种将从多个源获得的数据集分类的装置,该装置能够定位这些数据集中的有用信息。该目的根据通过从多个源获得的数据集分类的装置得到的本专利技术的第二类变化形式,这些数据集由若干符号组成,该装置包括:符号频率确定单元,其配置为确定第一数据集集合中的符号的出现频率和配置为确定第二数据集集合中的符号的出现频率;重要性确定单元,其配置为基于第一数据集集合中符号的出现频率和第二数据集集合中符号的出现频率确定第二数据集集合中最重要的符号;分组单元,其配置为将在相同数据集中出现的最重要的符号分组成若干组,以及等级排列单元,其配置为根据等级排列方案排列与符号组相关的数据集的等级。本专利技术的另一个目的在于提供一种从多个源获得的数据集分类的计算机程序产品,该计算机程序产品简化了数据集中有用信息的定位。该目的根据通过从多个源获得的数据集分类的计算机程序产品得到的本专利技术的第三类变化形式,这些数据集由若干符号组成,该计算机程序产品包括计算机可读存储介质和计算机程序代码,计算机程序代码使计算机执行如下操作:确定第一数据集集合中的符号的出现频率;确定第二数据集集合中的符号的出现频率;基于第一集合中符号的出现频率和第二集合中符号的出现频率确定第二集合中的最重要的符号;将在相同数据集中出现的最重要的符号分组成若干组,以及使用等级排列方案排列与符号组相关的数据集的等级。本专利技术具有许多优点。其能够定位数据集中的有用信息。尤其是,其允许获得与第二次采集中数据集相关的各种符号组的信息,例如:其可能是一种用于分析消费者或者社会的趋势的工具。以这样的方式,本专利技术通过研究各组的数据集的等级排列来实现数据集各方面的分析。应该强调,术语“包括(comprises/comprising)”在本说明书中时是被用以规定所描述的特征、整数、步骤或组件的存在,而不排除一个或多个其他特征、整数、步骤或组件或其他组的存在或添加。附图说明本专利技术将详细描述专利技术附图,其中图1示意性地表示数据集分类装置。该装置通过数据通信网络与多个计算机相连;图2示意性地表示数据集集合;图3表示数据分类装置的方框示意图;图4示意性地表示一张由装置执行的用于表征数据集的方法的流程图;以及图5示意性地表示以CDROM的形式呈现的含有用于数据集分类的计算机代码的计算机程序产品。具体实施方式在如下的描述中,出于解释而非限制,为了提供对本专利技术透彻的理解,将阐述例如特殊构架、界面、技术等特定细节。然而,本领域的技术人员将会清楚,可在脱离这些特定细节的其他实施例中实践本专利技术。在其他示例中,省略众所周知的装置、电路及方法的详细说明以便不因不必要的细节而使本专利技术的说明模糊。图1示意性地表示经由计算机通信网络12连接到多个计算机14、16、18及20的本专利技术中描述的用于将数据集分类的装置10。这里,计算机14、16、18及20是提供有数据集的信息源。这里,计算机通信网络12通常可以是因特网,其意味着提供数据集的各种源可以是免费获得的源。因此,这些源可以是公开的并且可以由任何连接至因特网的计算机获得。然而,应该认识到,本专利技术并不限于因特网,而是与计算机通讯网络相关的都可以使用。装置10具有一个或多个计算机或服务器能够连接到网络的优势。图2示意性地表示多个数据集DS1、DS2、DS3、…、DSn。上文提及的源可以各自具备一个或多个数据集。在该实施例中,数据集是包括原始数据D及元数据MD的数据档案或文件。原始数据D由例如字的符号构成因此可以是文本,并且元数据MD是与原始数据D相关联的数据,例如分类CL。分类可以是文字类型或数据集主题的分类,并且可以包括对作者的标识、文本简短的介绍。该元数据也可以包括指示数据集的生成、上次更改或可用或公开时间信息T。因此,数据集的原始数据D可由多个符号构成。这里第一数据集DS1表示为包括第一符号S1的两个试样、第二符号S2的两个试样及第三符号S3的一个试样。第二数据集DS2表示为包括第一符号S1的两个试样、第二符号S2的一个试样、第三符号S3的一个试样及第m个符号的一个试样。第三数据集DS3表示为包括第一符号S1的一个试样、第三符号S3的一个试样及第m个符号Sm的一个试样。最后,第n个数据集DSn表示为包括第m个符号Sm的一个项目。这里,符号通常是若干字符例如字母数字字符,这本文档来自技高网
...
非监督检测及在文本数据中字簇集的分类

【技术保护点】
一种将从多个源(14、16、18、20)获得数据集(DS1、DS2、DS3、…、DSn)分类的方法,所述数据集由符号(S1、S2、S3、…、Sm)组成,该方法包括:确定(36)第一数据集集合(C)中的符号的出现频率;确定(38)第二数据集集合中的符号的出现频率;基于第一集合中的出现频率和第二集合中的出现频率确定(40)第二集合中的最重要的符号(S1、S2);根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组(42)成若干组(G),以及使用等级排列方案排列(44)与符号组相关的数据集的等级。

【技术特征摘要】
【国外来华专利技术】2011.11.15 EP 11189099.21.一种将从多个源(14、16、18、20)获得数据集DS1、DS2、DS3、…、DSn分类的方法,所述数据集由符号S1、S2、S3、…、Sm组成,该方法包括:确定第一数据集集合C中的符号的出现频率;确定第二数据集集合中的符号的出现频率;基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最重要的符号S1、S2;所述确定第二集合中的最重要的符号基于:一个符号在第二集合中出现的概率p1,jsc(wjsc),而p1,jsc(wjsc)则是在给定了相同符号在第一集合出现的概率的条件下,利用如下公式计算得到,wjsc∈Bin(nsc,p0j)其中nsc是第二集合中的所使用符号的数目,wjsc是符号j已在第二集合中使用的次数,p0j是从第一集合取出的特定符号是符号j的概率,(1-p0j)是所讨论的符号不为符号j的概率,并且p1,jsc(k)是在假定符号j发生的次数遵循具有给定参数的二项式分布的情况下,符号j在第二集合中出现k次的概率,根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组G,以及使用等级排列方案排列与符号组相关的数据集的等级,其中,第一集合中符号频率的确定不需要使用数据集的任意前述分类。2.根据权利要求1所述的方法,还包括从所述源收集数据集。3.根据任意前述权利要求所述的方法,还包括针对至少一个组提供排列为最高等级的数据集的位置识别符。4.根据权利要求1或2所述的方法,其中使用主成分分析法进行符号分组。5.根据权利要求1或2所述的方法,其中使用例如沃德聚类分析法的聚类分析进行符号分组。6.根据权利要求1或2所述的方法,其中使用多维尺度法进行符号分组。7.根据权利要求1或2所述的方法,其中第二集合是第一集合的一部分SC。8.根据权利要求7所述的方法,其中这些数据集的集合基于时间将划分成多个部分,例如基于特定时间点或时间间隔。9.根据权利要求7所述的方法,其中基于这些数据集的分级将这些数据集的集合划分成多个部分。10.根据权利要求9所述的方法,其中这些数据集是文件以...

【专利技术属性】
技术研发人员:汤姆斯·拉尔森麦斯·林格伦
申请(专利权)人:凯洛斯未来集团公司
类型:发明
国别省市:瑞典;SE

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1