当前位置: 首页 > 专利查询>株式会社IPB专利>正文

将文件配置成时间序列的文件相关图的制成装置制造方法及图纸

技术编号:2839068 阅读:178 留言:0更新日期:2012-04-11 18:40
一种文件相关图制成装置,具备:对于多个文件元素,抽取由1个或多个文件组成的文件元素(E)的内容数据及时间数据的抽取单元(20、30);基于上述各文件元素的内容数据,制成表示上述多个文件元素的相关的树状图的树状图制成单元(50);基于规定规则而切断上述树状图来抽取簇的成簇单元(70);以及基于上述各文件元素的时间数据,决定属于上述各簇的文件元素群在该簇内的排列的簇内排列单元(90)。这样就能自动制成适当地表示出每个领域的时间性发展的树状图。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及自动制成表示文件相互关系并且反映文件的时间顺序的文件相关图的技术,特别是涉及这样的文件相关图的制成装置、制成方法及制成程序。
技术介绍
以专利文件为首的技术性文件和其他文件层出不穷,数量庞大。为了以简明易懂的形式提示这些文件的相互关系,优选的是按关联内容来整理其时间性发展。因此,优选的是自动制成兼顾文件内容的关联和按照时间顺序的排列的文件相关图。日本国特开平11-53387号公报「文件的关联方法及其系统」(专利文献1)披露了把按时间序列排顺的文件关联起来的方法。具体而言,基于文件间的单词的一致度来计算文件间的类似度,根据上述类似度,采用时间制约而制成类似度矩阵。把此类似度矩阵变换为下述邻接矩阵使类似度在规定阈值以上的的矩阵元素为1,其余为0。以此邻接矩阵为基础,制成作为文件关联图的有向图。专利文献1特开平11-53387号公报「文件的关联方法及其系统」但是,在上述特开平11-53387号公报(专利文献1)记载的技术中,在从某文件到类似文件,进而再到其类似文件地依次寻找时会产生偏差的积累,有可能不久就找到完全不同的文件。而且,也会出现从某文件分支的多条路线最终找到1个文件的情况,也有分支意义变得不明确的可能性。因此,上述特开平11-53387号公报(专利文献1)记载的技术中,存在不能适当表示每个领域的时间性发展的问题。
技术实现思路
本专利技术的课题是提供一种能适当表示每个领域的时间性发展的文件相关图制成装置、制成方法及制成程序。(1)为了解决上述课题,本专利技术的文件相关图制成装置,具备对于多个文件元素,抽取由1个或多个文件组成的文件元素的内容数据及时间数据的抽取单元;基于上述各文件元素的内容数据,制成表示上述多个文件元素的相关的树状图的树状图制成单元;基于规定规则切断上述树状图来抽取簇(クラスタ)的成簇单元;以及基于上述各文件元素的时间数据,决定属于上述各簇的文件元素群在该簇内的排列的簇内排列单元。根据本专利技术,通过利用切断树状图而抽取簇抽取和根据时间数据决定簇内排列,可以制成适当地表示每个领域的时间性发展的树状图。(2)在上述文件相关图制成装置中,优选的是,上述成簇单元切断上述树状图的上述规定规则,是根据关联规则分析而导出的。采用根据关联规则分析而导出的切断规则,能够应用可适用于各种树状图(通用性高)的切断规则,因而能够以高概率实现在切断理想值下的切断。而且,通过增加示范图的事例数,就能容易地进一步提高切断规则的精度。(3)在此文件相关图制成装置中,优选的是,上述规定规则是基于上述树状图的形状参数而导出的。通过采用基于树状图的形状参数而导出的切断规则,能够应用可决定适于树状图形状的适当切断位置的、可靠性高的切断规则。而且,可以通过读取解析对象树状图的形状参数并对其应用关联规则来决定切断位置,因而以较少的计算量即可决定切断位置。切断树状图的次数可以只是1次(固定BC法;后述),也可以基于1次切断所获得的母簇的形状参数,再次导出切断规则而切断该母簇,抽取子孙簇(可变BC法;后述)。根据可变BC法,即使生成元素数较多的母簇,也可以进一步将其分离为子孙簇。(4)在上述各文件相关图制成装置中,上述规定规则也可以基于在上述树状图的各节点所结合的多个文件元素的矢量维数而导出。通过采用参考矢量维数而导出的切断规则,能够获得更恰当的分支。上述多个文件元素的矢量维数,优选的是从该多个文件元素的矢量总和的维数中去除下述矢量成分的维数而得到的维数,所述矢量成分的这些文件元素之间的偏差值小于以规定方法决定的值。由此,可以应用更恰当的切断规则。(5)在此文件相关图制成装置中,优选的是,上述成簇单元按上述每个节点来判定在上述各节点所结合的多个文件元素的矢量维数是否为一定值以上,基于上述判定结果单独地切断上述矢量维数为一定值以上的节点。对每个节点进行切断基准的判定,并基于判定结果而单独地切断各节点,从而能够获得更恰当的分支。(6)在上述文件相关图制成装置中,优选的是,上述成簇单元切断上述树状图而抽取母簇,基于属于上述母簇的各文件元素的内容数据而制成表示属于上述母簇的文件元素群的相关的部分树状图,基于规定规则而切断所制成的该部分树状图,抽取子孙簇。在抽取母簇后,根据对各母簇进行再次分析而制成的部分树状图,抽取子簇,从而能够改善子簇的错误分类,获得恰当的分类。(7)在此文件相关图制成装置中,优选的是,上述成簇单元,为了制成上述部分树状图制成,从各文件元素矢量中除去属于上述母簇的多个文件元素间的偏差值小于以规定方法确定的值的矢量成分。在抽取母簇抽取后,通过除去属于各母簇的文件元素间的偏差值较小的矢量成分,可以根据与母簇的抽取观点不同的观点抽取子簇抽取,从而获得恰当的分类。文件元素的矢量成分,例如是与该文件内的各个索引语有关的全部文件IDF加权TF值(TF*IDF(P)值;后述)。例如,可以对于属于母簇的所有文件元素,算出各索引语的TF*IDF(P)值,并根据标准偏差与属于母簇的文件元素间的偏差平均值之比是否收敛于规定范围内,来判定偏差是否较小。(8)在上述文件相关图制成装置中,优选的是,上述树状图制成单元,以文件元素间的结合高度反映文件元素间的类似程度的方式制成上述树状图;上述成簇单元,在上述树状图的2处以上的规定高度进行切断而抽取上述簇。由于在预定的多个切断高度进行切断,因而不需要为了决定切断位置而进行复杂的计算,即可容易地获得恰当的分支。关于切断后的连线结构,优选的是,基于在各切断位置切断的分支线的数量来决定分支结构。这样就能适当地简化树状图的分级结构,并且制成反映了当初的图树状的分级结构的文件相关图。另外,通过在多个切断位置上进行切断而生成母子簇时,即使不再制成属于母簇的文件元素的部分树状图也能生成子簇,因而以较少的计算量即可生成母子簇。(9)在上述各文件相关图制成装置中,优选的是,上述树状图制成单元,以文件元素间的结合高度反映文件元素间的类似程度的方式制成上述树状图;上述成簇单元,在以包含属于上述树状图的上述文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础的切断位置上进行切断而抽取上述簇。由于以包含结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础来进行切断,因而能广泛地对应各种各样的树状图形状,不需要进行复杂的计算,即可容易地获得恰当的分支。包含结合高度平均值及偏差中的任意一方或两方作为变量的函数,特别优选的是至少包含平均值作为变量的函数,更优选的是同时包含平均值和偏差作为变量的函数。优选的是,例如,采用结合高度d的平均值<d>和标准偏差σd,取<d>+δσd(此处-3≤δ≤3)。另外,作为包含结合高度d的偏差作为变量并且不包含结合高度d的平均值<d>作为变量的函数,例如,可以考虑使用结合高度d的标准偏差σd和中点距离m(后述),取m+εσd(此处-3≤ε≤3)。而且,偏差不限于标准偏差σd,也可以是平均偏差。(10)在上述各文件相关图制成装置中,优选的是,上述树状图制成单元,以文件元素间的结合高度反映文件元素间的类似程度的方式制成上述树状图;上述成簇单元,在以包含属于上述树状图的上述文件元素群的结本文档来自技高网...

【技术保护点】
一种文件相关图制成装置,具备:对于多个文件元素,抽取由1个或多个文件组成的文件元素的内容数据及时间数据的抽取单元;基于上述各文件元素的内容数据,制成表示上述多个文件元素的相关的树状图的树状图制成单元;基于规定规则而切断上述树状图来抽取簇的成簇单元;以及基于上述各文件元素的时间数据,决定属于上述各簇的文件元素群在该簇内的排列的簇内排列单元。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:增山博昭佐藤晴正浅田诚莲子和巳堀田任晃
申请(专利权)人:株式会社IPB
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1