文档分类装置及文档分类方法制造方法及图纸

技术编号:11374283 阅读:87 留言:0更新日期:2015-04-30 11:34
根据实施方式,文档分类装置具有:类目生成部(7),以语言不同的多个文档当中的相同语言的多个文档为对象进行聚类,由此来按照每个语言生成类目;单词间对应关系抽取部(6),使用语言不同的文档间的对应关系,基于语言不同的单词在存在对应关系的文档间同现地出现的频率,抽取不同单词的单词间的对应关系;以及类目间对应关系抽取部(8),基于单词间的对应关系,抽取将语言不同的文档进行了分类的类目间的对应关系。

【技术实现步骤摘要】
【国外来华专利技术】文档分类装置及文档分类方法
本专利技术的实施方式涉及用于将电子化的大量文档根据其内容来进行分类的文档分类装置及文档分类方法。
技术介绍
近年来,随着计算机的高性能化、存储介质的大容量化及计算机网络的普及等,使得使用计算机系统来大量地收集、存储并利用电子化的文档的信息成为了可能。作为用于将这样的大量文档整理成容易利用的形式的技术,期待有文档的自动分类及聚类等技术。特别是如今企业等的活动的迅速国际化不断进展。在该状况下,需要高效地分类不仅用1个语言而是用如日语、英语、中文这样的多个自然语言来记述的文档。例如有想要将在多个国家申请的专利文档无关于语言的不同而基于内容的相似性进行分类来分析申请趋势的需求。此外,例如还有想要在各国的接待中心受理针对在多个国家销售的产品的来自顾客的提问及投诉等信息并对该信息进行分类·分析的需求。此外,例如还有想要收集并分析在因特网上公开的用各种语言来记载的新闻报道、对产品·服务等的评论·意见等信息的需求。作为将语言不同的的文档集合基于内容的相似性来跨语言地分类的方法之一,有使用机械翻译技术的方法。这是如下的方法:翻译用母语以外的语言(例如在日语为母语的情况下,为英语或中文)记述的文档,从而能够将全部文档作为1个语言(即母语)的文档来处理,在此基础上,进行自动分类或聚类等。然而,该方法中,机械翻译的精度会影响到自动分类等处理的精度,存在如由于翻译错误等原因而导致文档无法被恰当地分类这样的、精度的问题。此外,一般来讲,机械翻译的处理用的计算成本很大,因此,在以大量文档为对象的情况下存在性能方面的问题。进而,在多个用户对文档进行分类来利用的情况下,可以想到文档的母语也互不相同,要预先设想到该点而将大量文档翻译成多个语言是很困难的。作为将用多个语言记述的文档集合跨语言地进行分类的方法,有使用对译辞典(或称作互译辞典)的方法。在此对译辞典是指,将用某个语言记述的单词或语句等的表述与其他语言的相同意思的表述之间相互建立了对应的辞典或同义词词典(thesaurus)。以下,为了简单起见,包括合成词及短语等在内,仅记作单词。作为使用对译辞典来实现跨语言分类的方法的例子,首先,在用多个语言记述的文档集合当中,对用某个语言1记述的文档的部分集合进行分类来制作类目。然后,将表示该各类目的特征的语言a的单词,例如通过单词向量的形式来求出。另一方面,关于另外的语言b的文档,求出表示其特征的语言b的单词向量。在此,如果能够将语言a的各类目的单词向量的各维(换句话说语言a的单词)与语言b的文档的单词向量的各维(换句话说语言b的单词)使用对译辞典建立对应的话,就能够计算语言a的单词向量与语言b的单词向量的相似度。然后,基于该相似度,能够将语言b的文档在语言a的类目当中分类到恰当的类目中。在使用这样的对译辞典的方法中,对译辞典的质和量很重要。但是,要全部通过手动来制作的话需要劳力。于是,作为半自动地制作对译辞典的方法,有如下方法:对用某个语言记述的单词,基于在各语言的语料库(corpus:收集了文例的数据库)中的单词的同现频率和通用的对译辞典,来求出用恰当的其他的语言记述的单词,来作为其对译。该方法中,首先,作为用于制作对译辞典的对象的单词,例如需要指定专门用语等,该专门用语的用一个语言进行的表述是已知的而用与该表述对应的另一个语言进行的表述是未知的。然而,在对内容未知的文档进行分类的情况下,无法预先设想是要对什么样的单词来制作对译辞典。因此,使用同现频率和对译辞典的方法不适于利用聚类等探索式的分类手法来对未知内容的文档进行分类这样的目的。此外,在上述的方法中,相对于半自动地制作的对译辞典,还需要另外制作通用的对译辞典。但是,根据作为对象的语言,有时无法预先充分地准备其通用的对译辞典。此外,例如,相对于英语的单词“character”而言,日本的单词有“性格”、“特性”、“人物”、“文字”等。因而,特别是在使用通用的对译辞典的情况下,需要与作为分类的对象的文档集合相对应地选择恰当的对译词。此外,有使用通过上述方法制作的对译的同义词词典来对文档自动分类的方法。在该方法中,在文档未被分类到恰当的类目中的情况下,通过由用户来修正与类目对应的同义词词典的语义,能够应对分类的错误等。但是,该作业对于不习惯作为对象的语言的用户来讲,特别需要劳力。先行技术文献专利文献专利文献1:特开2001-331484号公报专利文献2:特开2010-55298号公报专利文献3:特开2005-107705号公报
技术实现思路
专利技术要解决的课题本专利技术要解决的课题在于,提供一种文档分类装置及文档分类方法,能够高效地制作用于将用不同的自然语言记述的大量文档基于内容的相似性来跨语言地进行分类的分类构造。解决课题的手段根据实施方式,文档分类装置具有:文档存储部,存储语言不同的多个文档;文档间对应关系存储部,存储文档存储部所存储的、语言不同的文档间的对应关系;以及类目存储部,存储用于对文档存储部所存储的多个文档进行分类的类目。该文档分类装置具有单词抽取部,该单词抽取部从文档存储部所存储的文档抽取单词。该文档分类装置具有单词间对应关系抽取部,该单词间对应关系抽取部使用文档间对应关系存储部所存储的、用不同语言记述的文档间的对应关系,基于由单词抽取部抽取的单词在存在对应关系的文档间同现地出现的频率,抽取该单词间的对应关系。该文档分类装置具有类目生成部,该类目生成部基于文档存储部所存储的语言相同的文档间的、由单词抽取部抽取的单词在各文档中出现的频率的相似性,对用该语言记述的多个文档进行聚类,由此,按照每个语言生成类目。该文档分类装置具有类目间对应关系抽取部,该类目间对应关系抽取部以由类目生成部按照每个语言生成的类目为对象,基于在被分类到各类目中的文档中出现的单词的频率、由单词间对应关系抽取部抽取到的用不同语言记述的单词间的对应关系,在被分类到某个类目中的文档中出现的频率较多的单词与在被分类到其他类目中的文档中出现的频率较多的单词之间,单词间的对应关系存在得越多则视为该类目间的相似度越高,由此,抽取将用不同语言记述的文档进行了分类的类目间的对应关系。附图说明图1是表示实施方式的多语言文档分类装置的结构例的框图。图2是表示实施方式的多语言文档分类装置的结构例的框图。图3是表示实施方式的多语言文档分类装置的结构例的框图。图4是表示实施方式的多语言文档分类装置的结构例的框图。图5是表示实施方式的多语言文档分类装置的结构例的框图。图6A是用表形式来表示文档存储部所存储的文档的一例的图。图6B是用表形式来表示文档存储部所存储的文档的一例的图。图6C是用表形式来表示文档存储部所存储的文档的一例的图。图7A是用表形式来表示类目存储部所存储的类目的一例的图。图7B是用表形式来表示类目存储部所存储的类目的一例的图。图7C是用表形式来表示类目存储部所存储的类目的一例的图。图7D是用表形式来表示类目存储部所存储的类目的一例的图。图8是用表形式来表示文档间对应关系存储部所存储的文档间的关系的一例的图。图9是用表形式来表示辞典存储部所存储的辞典词的一例的图。图10是表示单词抽取部的处理步骤的一例的流程图。图11是表示单词间对应关系抽取部的处理步骤的一例的流程图。图12是表示由单词间对本文档来自技高网
...
文档分类装置及文档分类方法

【技术保护点】
一种文档分类装置,其特征在于,具备:文档存储部(1),存储语言不同的多个文档;文档间对应关系存储部(5),存储所述文档存储部(1)所存储的、语言不同的文档间的对应关系;类目存储部(3),存储用于对所述文档存储部(1)所存储的多个文档进行分类的类目;单词抽取部(2),从所述文档存储部(1)所存储的文档抽取单词;单词间对应关系抽取部(6),使用所述文档间对应关系存储部(5)所存储的对应关系,基于由所述单词抽取部(2)抽取到的单词在具有所述对应关系的文档间同现地出现的频率,抽取该单词间的对应关系;类目生成部(7),基于所述文档存储部(1)所存储的语言相同的文档间的、由所述单词抽取部(2)抽取到的单词出现的频率的相似性,对用该语言记述的多个文档进行聚类,由此,按照每个语言生成所述类目;类目间对应关系抽取部(8),基于在被分类到由所述类目生成部(7)生成的每个语言的类目中的文档中单词出现的频率、以及由所述单词间对应关系抽取部(6)抽取到的对应关系,在被分类到某个类目中的文档中出现的频率较多的单词、与在被分类到其他类目中的文档中出现的频率较多的之间,所述单词间的对应关系存在得越多则视为该类目间的相似度越高,由此,抽取将语言不同的文档进行了分类的类目间的对应关系。...

【技术特征摘要】
【国外来华专利技术】2012.08.22 JP 2012-1835341.一种文档分类装置,其特征在于,具备:文档存储部(1),存储语言不同的多个文档;文档间对应关系存储部(5),存储所述文档存储部(1)所存储的、语言不同的文档间的对应关系;类目存储部(3),存储用于对所述文档存储部(1)所存储的多个文档进行分类的类目;单词抽取部(2),从所述文档存储部(1)所存储的文档抽取单词;单词间对应关系抽取部(6),使用所述文档间对应关系存储部(5)所存储的对应关系,基于由所述单词抽取部(2)抽取到的单词在具有所述对应关系的文档间同现地出现的频率,抽取该单词间的对应关系;类目生成部(7),基于所述文档存储部(1)所存储的语言相同的文档间的、由所述单词抽取部(2)抽取到的单词出现的频率的相似性,对用该语言记述的多个文档进行聚类,由此,按照每个语言生成所述类目;类目间对应关系抽取部(8),基于在被分类到由所述类目生成部(7)生成的每个语言的类目中的文档中单词出现的频率、以及由所述单词间对应关系抽取部(6)抽取到的对应关系,在被分类到某个类目中的文档中出现的频率较多的单词、与在被分类到其他类目中的文档中出现的频率较多的之间,所述单词间的对应关系存在得越多则视为该类目间的相似度越高,由此,抽取将语言不同的文档进行了分类的类目间的对应关系。2.如权利要求1所述的文档分类装置,其特征在于,还具备:类目特征词抽取部(10),基于针对作为被分类到所述类目存储部(3)所存储的类目中的文档的、用1个或者多个语言记述的1个或者多个文档的、由所述单词抽取部(2)抽取到的单词出现的频率,抽取该类目的特征词;以及类目特征词变换部(11),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将作为由所述类目特征词抽取部(10)抽取到的特征词的用第一语言记述的特征词,变换为用第二语言记述的特征词。3.如权利要求1所述的文档分类装置,其特征在于,还具备:规则基准文档分类部(12),以所述类目存储部(3)所存储的1个或者多个类目为对象,基于以将由所述单词抽取部(2)抽取到的单词当中的1个或者多个单词出现的文档分类到该类目中的方式进行规定的分类规则,决定用于对所述文档存储部(1)所存储的文档进行分类的类目;以及分类规则变换部(13),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将所述规则基准文档分类部(12)所使用的各类目的分类规则中的用第一语言记述的单词变换为用第二语言记述的单词,由此对所述分类规则进行变换。4.如权利要求1所述的文档分类装置,其特征在于,具备:辞典存储部(14),存储用于规定所述类目生成部(7)对单词的使用方法的辞典;辞典设定部(15),对所述辞典,设定重视的重要词、忽略的不需要词、视为相同的同义词的某个或者多个,作为辞典词;以及辞典变换部(16),基于由所述单词间对应关系抽取部(6)抽取到的对应关系,将作为在所述辞典中设定的辞典词的用某个语言记述的辞典词变换为用其他语言记述的辞典词。5.如权利要求2所述的文档分类装置,其特征在于,具备:辞典存储部(14),存储用于规定所述类目特征词抽取部(10)对单词的使用方法的辞典;辞典设定部(15),对所述辞典,设定在所述文档的分类中重视的重要词...

【专利技术属性】
技术研发人员:后藤和之祖国威宫部泰成岩崎秀树
申请(专利权)人:株式会社东芝东芝解决方案株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1