【技术实现步骤摘要】
【国外来华专利技术】文档分类装置及文档分类方法
本专利技术的实施方式涉及用于将电子化的大量文档根据其内容来进行分类的文档分类装置及文档分类方法。
技术介绍
近年来,随着计算机的高性能化、存储介质的大容量化及计算机网络的普及等,使得使用计算机系统来大量地收集、存储并利用电子化的文档的信息成为了可能。作为用于将这样的大量文档整理成容易利用的形式的技术,期待有文档的自动分类及聚类等技术。特别是如今企业等的活动的迅速国际化不断进展。在该状况下,需要高效地分类不仅用1个语言而是用如日语、英语、中文这样的多个自然语言来记述的文档。例如有想要将在多个国家申请的专利文档无关于语言的不同而基于内容的相似性进行分类来分析申请趋势的需求。此外,例如还有想要在各国的接待中心受理针对在多个国家销售的产品的来自顾客的提问及投诉等信息并对该信息进行分类·分析的需求。此外,例如还有想要收集并分析在因特网上公开的用各种语言来记载的新闻报道、对产品·服务等的评论·意见等信息的需求。作为将语言不同的的文档集合基于内容的相似性来跨语言地分类的方法之一,有使用机械翻译技术的方法。这是如下的方法:翻译用母语以外的语言(例如在日语为母语的情况下,为英语或中文)记述的文档,从而能够将全部文档作为1个语言(即母语)的文档来处理,在此基础上,进行自动分类或聚类等。然而,该方法中,机械翻译的精度会影响到自动分类等处理的精度,存在如由于翻译错误等原因而导致文档无法被恰当地分类这样的、精度的问题。此外,一般来讲,机械翻译的处理用的计算成本很大,因此,在以大量文档为对象的情况下存在性能方面的问题。进而,在多个用户对文档进行分类来利用的 ...
【技术保护点】
一种文档分类装置,其特征在于,具备:文档存储部(1),存储语言不同的多个文档;文档间对应关系存储部(5),存储所述文档存储部(1)所存储的、语言不同的文档间的对应关系;类目存储部(3),存储用于对所述文档存储部(1)所存储的多个文档进行分类的类目;单词抽取部(2),从所述文档存储部(1)所存储的文档抽取单词;单词间对应关系抽取部(6),使用所述文档间对应关系存储部(5)所存储的对应关系,基于由所述单词抽取部(2)抽取到的单词在具有所述对应关系的文档间同现地出现的频率,抽取该单词间的对应关系;类目生成部(7),基于所述文档存储部(1)所存储的语言相同的文档间的、由所述单词抽取部(2)抽取到的单词出现的频率的相似性,对用该语言记述的多个文档进行聚类,由此,按照每个语言生成所述类目;类目间对应关系抽取部(8),基于在被分类到由所述类目生成部(7)生成的每个语言的类目中的文档中单词出现的频率、以及由所述单词间对应关系抽取部(6)抽取到的对应关系,在被分类到某个类目中的文档中出现的频率较多的单词、与在被分类到其他类目中的文档中出现的频率较多的之间,所述单词间的对应关系存在得越多则视为该类目间的相 ...
【技术特征摘要】
【国外来华专利技术】2012.08.22 JP 2012-1835341.一种文档分类装置,其特征在于,具备:文档存储部(1),存储语言不同的多个文档;文档间对应关系存储部(5),存储所述文档存储部(1)所存储的、语言不同的文档间的对应关系;类目存储部(3),存储用于对所述文档存储部(1)所存储的多个文档进行分类的类目;单词抽取部(2),从所述文档存储部(1)所存储的文档抽取单词;单词间对应关系抽取部(6),使用所述文档间对应关系存储部(5)所存储的对应关系,基于由所述单词抽取部(2)抽取到的单词在具有所述对应关系的文档间同现地出现的频率,抽取该单词间的对应关系;类目生成部(7),基于所述文档存储部(1)所存储的语言相同的文档间的、由所述单词抽取部(2)抽取到的单词出现的频率的相似性,对用该语言记述的多个文档进行聚类,由此,按照每个语言生成所述类目;类目间对应关系抽取部(8),基于在被分类到由所述类目生成部(7)生成的每个语言的类目中的文档中单词出现的频率、以及由所述单词间对应关系抽取部(6)抽取到的对应关系,在被分类到某个类目中的文档中出现的频率较多的单词、与在被分类到其他类目中的文档中出现的频率较多的之间,所述单词间的对应关系存在得越多则视为该类目间的相似度越高,由此,抽取将语言不同的文档进行了分类的类目间的对应关系。2.如权利要求1所述的文档分类装置,其特征在于,还具备:类目特征词抽取部(10),基于针对作为被分类到所述类目存储部(3)所存储的类目中的文档的、用1个或者多个语言记述的1个或者多个文档的、由所述单词抽取部(2)抽取到的单词出现的频率,抽取该类目的特征词;以及类目特征词变换部(11),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将作为由所述类目特征词抽取部(10)抽取到的特征词的用第一语言记述的特征词,变换为用第二语言记述的特征词。3.如权利要求1所述的文档分类装置,其特征在于,还具备:规则基准文档分类部(12),以所述类目存储部(3)所存储的1个或者多个类目为对象,基于以将由所述单词抽取部(2)抽取到的单词当中的1个或者多个单词出现的文档分类到该类目中的方式进行规定的分类规则,决定用于对所述文档存储部(1)所存储的文档进行分类的类目;以及分类规则变换部(13),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将所述规则基准文档分类部(12)所使用的各类目的分类规则中的用第一语言记述的单词变换为用第二语言记述的单词,由此对所述分类规则进行变换。4.如权利要求1所述的文档分类装置,其特征在于,具备:辞典存储部(14),存储用于规定所述类目生成部(7)对单词的使用方法的辞典;辞典设定部(15),对所述辞典,设定重视的重要词、忽略的不需要词、视为相同的同义词的某个或者多个,作为辞典词;以及辞典变换部(16),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将作为在所述辞典中设定的辞典词的用某个语言记述的辞典词变换为用其他语言记述的辞典词。5.如权利要求2所述的文档分类装置,其特征在于,具备:辞典存储部(14),存储用于规定所述类目特征词抽取部(10)对单词的使用方法的辞典;辞典设定部(15),对所述辞典,设定在所述文档的分类中重视的重要词...
【专利技术属性】
技术研发人员:后藤和之,祖国威,宫部泰成,岩崎秀树,
申请(专利权)人:株式会社东芝,东芝解决方案株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。