【技术实现步骤摘要】
【国外来华专利技术】聚类分析方法、聚类分析系统及聚类分析程序
本专利技术涉及将多个文件按其内容分类为聚类,并生成示出文件关联的显示数据的一种聚类分析方法、聚类分析系统及聚类分析程序。
技术介绍
一直以来,在分析多篇学术论文或文献等文件时,由人来阅读文件并按内容进行分类、或制作摘要。由人进行分析不仅耗费时间,而且当多个人进行分析时,会因作业人员的经验和知识而导致分类或摘要的制作精度存在偏差的倾向。此外,对于如学术论文等复杂且专业性高的文件,为了理解内容需要具有高度的专业知识。然而,即使是不具备这种专业知识的人,也希望容易地获得和理解最新的信息,并将其活用。例如,已经提出了一种聚类分析方法,其中对通过概念检索而检索到的技术文献进行形态分析,并对由其得到的各单词附加权重,以将各技术文献向量化,并将向量化的朝向接近的技术文献归为一个聚类(例如,“专利文献1”。)。通过这样的技术,虽然可以将信息分类为聚类,但没有达到理解文件间的关系或聚类间的关系等的程度。专利文献【专利文献1】日本专利文献特开第2005-92443号公报
技术实现思路
专利技术所要解决的问题本专利技术的目的在于:提供一种聚类分析方法、聚类分析系统及聚类分析程序,通过将多篇文件,特别是数量庞大的文件分类成由相似文件构成的聚类,并且使其能够俯瞰文件间的关联,从而能够在更短的时间内有效率地理解多篇文件的主旨。解决问题的手段即,本专利技术是一种计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显 ...
【技术保护点】
1.一种计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析方法,其特征在于,包括:/n相似度计算步骤,计算一篇文件的内容与其他文件的内容的相似度;/n聚类分类步骤,基于计算出的相似度将文件或聚类作为节点,生成将相似的节点间以边连结的网络,并分类成由相似的文件构成的聚类;/n第1指标计算步骤,计算示出所述网络中的文件的中心性的第1指标;/n第2指标计算步骤,计算与所述网络中的所述第1指标不同的、示出文件的重要性的第2指标;以及/n显示数据生成步骤,对于文件,以与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。/n
【技术特征摘要】
【国外来华专利技术】20190517 JP PCT/JP2019/0197151.一种计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析方法,其特征在于,包括:
相似度计算步骤,计算一篇文件的内容与其他文件的内容的相似度;
聚类分类步骤,基于计算出的相似度将文件或聚类作为节点,生成将相似的节点间以边连结的网络,并分类成由相似的文件构成的聚类;
第1指标计算步骤,计算示出所述网络中的文件的中心性的第1指标;
第2指标计算步骤,计算与所述网络中的所述第1指标不同的、示出文件的重要性的第2指标;以及
显示数据生成步骤,对于文件,以与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。
2.根据权利要求1所述的聚类分析方法,其中,
在所述显示数据生成步骤中生成显示数据,该显示数据以圆表现所述第1指标的物件,并以与所述第1指标的圆同心的圆弧、及所述圆弧的长度表现所述第2指标的量规。
3.根据权利要求1或2所述的聚类分析方法,其中,
所述文件具有题目、主旨及正文中的至少一个作为其构成元素,
所述显示数据生成步骤,进一步地,提取属于一个聚类的文件的题目、主旨及正文中的至少一个所包含的出现频率高的单词,并生成以与该出现频率相应的大小显示该单词的第2显示数据。
4.根据权利要求1至3中任一项所述的聚类分析方法,其中,
所述文件具有题目、主旨及正文中的至少一个作为其构成要素,
所述显示数据生成步骤,进一步地,提取属于一个聚类的文件的题目、主旨及正文中的至少一个所包含的出现频率高的单词,并生成根据该出现频率按顺序显示该单词的第3显示数据。
5.根据权利要求1至4中任一项所述的聚类分析方法,其中,
所述文件是刊登在学术杂志的文件,所述第2指标是根据所述文件的引用而计算的。
6.根据权利要求1至4中任一项所述的聚类分析方法,其中,
所述文件,是通过网页搜索以规定的件数作为上限而获得的网站上记载的文件。
7.根据权利要求6所述的聚类分析方法,其中,
所述第2指标,是根据对所述网站的访问数而计算的。
8.根据权利要求6或7所述的聚类分析方法,其中,
提取所述文件包含的出现频率高的单词,并生成以该出现频率相应的大小显示该单词的第2显示数据。
9.根据权利要求6至8中任一项所述的聚类分析方法,其中,
提取所述文件包含的出现频率高的单词,并生成...
【专利技术属性】
技术研发人员:山崎邦利,细谷龍一,
申请(专利权)人:爱酷赛股份有限公司,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。