本发明专利技术公开了一种技术文件分析方法和一种技术文件分析系统,适用于分析多笔技术文字资料,其中每一所述技术文字资料分别包含一文献资料,该方法包括:进行一文字探勘,以分别从所述多笔技术文字资料,萃取出多个技术字词,其中每一所述技术字词分别对应至少一该技术文字资料。进行一字词关联性分析,以划分所述多个技术字词成多个技术群组。根据组成每一所述技术群组的所述多个技术字词,其所对应的所述多笔技术文字资料所分别包含的所述文献资料,标示每一所述技术群组所对应的一年代区间。根据每一所述技术群组的原始资料分别对应该年代区间,绘制所述多笔技术文字资料的一技术发展轨迹。本发明专利技术可快速图表化技术文件背后所隐藏的技术发展轨迹。
【技术实现步骤摘要】
本专利技术涉及一种文件分析方法与系统,且特别涉及一种技术文件的分析方法与分析系统,以图像化技术文件所蕴藏的技术发展轨迹。
技术介绍
目前的科技发展趋势研究,对于特定的产业、研发单位或是个人,通常先从技术面与产品面作分析导向,同时需要依靠人力一一浏览相关文件资料或是影音文件,借此找寻出关键的词汇并且一一汇总。依靠人力一一分析技术文件,庞大的人力物力,也消耗文件浏览或是技术分析人员的时间,而且,不同人员对于相同或是相似的技术文件在分析时,也会有主观见解而导致分析过程或是汇总过程产生人为偏差,甚至导致整体技术分析结果存在着不小的人为导向因素,使科技发展趋势研究结果不具有客观性,连带使得之后对于特定的产业、研发单位或是个人的研发方向造成误判。
技术实现思路
针对现有技术中存在的问题,本专利技术的目的在于提供一种技术文件分析方法,可快速分析大量的技术文件,以图表化技术文件背后所隐藏的技术发展轨迹。本专利技术的另一目的在于提供一种技术文件分析系统,可快速分析大量的技术文件,从而准确绘制技术发展方向。本专利技术提出一种技术文件分析方法,适用于分析多笔技术文字资料,其中每一所述技术文字资料分别包含一文献资料,该方法包括进行一文字探勘,以分别从所述多笔技术文字资料,萃取出多个技术字词,其中每一所述技术字词分别对应至少一该技术文字资料。进行一字词关联性分析,以划分所述多个技术字词成多个技术群组。根据组成每一所述技术群组的所述多个技术字词,其所对应的所述多个技术文字资料所分别包含的所述文献资料,标示每一所述技术群组所对应的一年代区间。根据每一所述技术群组分别对应的该年代区间,绘制所述多笔技术文字资料的一技术发展轨迹。在本专利技术的一实施例中,上述的技术文件分析方法,其中该文献资料包括一文献相关时间记录、一文献关键词组、一文献归属者、一文献技术分类、一文献作者群或一文献审核单位。在本专利技术的一实施例中,上述的技术文件分析方法,其中该字词关联性分析是根据所述多个技术字词所对应的至少一该技术文字资料所分别包含的该文献资料而进行。在本专利技术的一实施例中,上述的技术文件分析方法,其中该字词关联性分析包括 根据所述多个技术字词所对应的所述多笔技术文字资料的所述文献相关时间或所述文献相互引用关系,以获得所述多个技术字词彼此之间的一发生先后顺序关系。进行一词组出现频率分析,以获得所述多个技术字词彼此之间的一字词出现关系。根据所述多个技术字词彼此之间的该发生先后顺序关系与该字词出现关系,划分所述多个技术字词成所述多个技术群组。在本专利技术的一实施例中,上述的技术文件分析方法,其中划分所述多个技术字词成所述多个技术群组的方法包括因素分析法、集群分析法或自我组织法。在本专利技术的一实施例中,上述的技术文件分析方法,其中该词组出现频率分析包括计算所述多个技术字词中,每两所述技术字词在所述多笔技术文字资料中的一共同出现频率。计算所述多个技术字词中,每两所述技术字词出现于同一该技术文字资料的一共同出现文字资料数。根据该共同出现频率与该共同出现文字资料数,决定每两该技术字词之间的该字词出现关系。在本专利技术的一实施例中,上述的技术文件分析方法,其中每一所述技术文字资料的所述多个技术字词包括该文献相关时间记录、该文献关键词组、该文献归属者、该文献技术分类、该文献作者群或该文献审核单位。在本专利技术的一实施例中,上述的技术文件分析方法,其中每一所述技术文字资料是经由分别将多笔技术文件与多笔影音文件进行一纯文字转译后所获得。在本专利技术的一实施例中,上述的技术文件分析方法,其中该文字探勘包括进行一断词断字分析,以从所述多笔技术文字资料中获得多个候选字词。进行一词频分析,以由所述多个候选字词中筛选出所述多个技术字词。在本专利技术的一实施例中,上述的技术文件分析方法,其中该词频分析包括计算每一所述候选字词于所述多笔技术文字资料中的一出现频率。计算每一所述候选字词出现于所述多笔技术文字资料中的一出现文字资料数。根据一字词出现门槛值以及每一所述候选字词的该出现频率与该出现文字资料数,由所述多个候选字词中筛选出所述多个技术字词。本专利技术另提出一种技术文件分析系统,适用于分析多笔技术文字资料,其中每一所述技术文字资料分别包含一文献资料,该系统包括一文字探勘模块、一字词关联性分析模块、一年代标示模块以及一技术轨迹绘制模块。文字探勘模块用以分别从所述多笔技术文字资料,萃取出多个技术字词,其中每一所述技术字词分别对应至少一该技术文字资料。 字词关联性分析模块,用以划分所述多个技术字词成多个技术群组。年代标示模块,用以根据组成每一所述技术群组的所述多个技术字词,其所对应的所述多笔技术文字资料所分别包含的所述文献资料,标示每一所述技术群组所对应的一年代区间。技术轨迹绘制模块,则根据每一所述技术群组分别对应的该年代区间,绘制所述多笔技术文字资料的一技术发展轨迹。在本专利技术的一实施例中,上述的技术文件分析系统,其中该文献资料包括一文献相关时间记录、一文献关键词组、一文献归属者、一文献技术分类、一文献作者群或一文献审核单位。在本专利技术的一实施例中,上述的技术文件分析系统,其中该字词关联性分析模块是根据所述多个技术字词所对应的至少一该技术文字资料所分别包含的该文献资料而划分所述多个技术字词。在本专利技术的一实施例中,上述的技术文件分析系统,其中该字词关联性分析模块包括一顺序分析模块、一词组频率分析模块以及一划分模块。顺序分析模块,用以根据所述多个技术字词所对应的所述多笔技术文字资料的所述文献相关时间或所述文献相互引用关系,以分析所述多个技术字词彼此之间的一发生先后顺序关系。词组频率分析模块,用以分析所述多个技术字词彼此之间的一字词出现关系。划分模块,则根据所述多个技术字词彼此之间的该发生先后顺序关系与该字词出现关系,划分所述多个技术字词成所述多个技术群组。在本专利技术的一实施例中,上述的技术文件分析系统,其中划分所述多个技术字词成所述多个技术群组的方法包括因素分析法、集群分析法或自我组织法。在本专利技术的一实施例中,上述的技术文件分析系统,其中该词组频率分析模块包括一共同出现频率分析模块、一共同出现文字资料计数模块以及一关系决定模块。共同出现频率分析模块,用以计算所述多个技术字词中,每两所述技术字词在所述多笔技术文字资料中的一共同出现频率。共同出现文字资料计数模块,用以计算所述多个技术字词中,每两所述技术字词出现于同一该技术文字资料的一共同出现文字资料数。关系决定模块,则根据该共同出现频率与该共同出现文字资料数,决定每两该技术字词之间的该字词出现关系。在本专利技术的一实施例中,上述的技术文件分析系统,其中每一所述技术文字资料的所述多个技术字词包括该文献相关时间记录、该文献关键词组、该文献归属者、该文献技术分类、该文献作者群或该文献审核单位。在本专利技术的一实施例中,上述的技术文件分析系统,还包括一转译模块,以分别将多笔技术文件与多笔影音文件纯文字转译成每一所述技术文字资料。在本专利技术的一实施例中,上述的技术文件分析系统,其中该文字探勘模块包括一断词断字分析模块以及一词频分析模块。断词断字分析模块,用以从所述多笔技术文字资料中获得多个候选字词。词频分析模块,则由所述多个候选字词中筛选出所述多个技术字词。在本专利技术的一实施例中,上述的技术文件分析系统,其中本文档来自技高网...
【技术保护点】
1.一种技术文件分析方法,适用于分析多笔技术文字资料,其中每一所述技术文字资料分别包含一文献资料,该方法包括:进行一文字探勘,以分别从所述多笔技术文字资料,萃取出多个技术字词,其中每一所述技术字词分别对应至少一该技术文字资料;进行一字词关联性分析,以划分所述多个技术字词成多个技术群组;根据组成每一所述技术群组的所述多个技术字词,其所对应的所述多笔技术文字资料所分别包含的所述文献资料,标示每一所述技术群组所对应的一年代区间;以及根据每一所述技术群组分别对应的该年代区间,绘制所述多笔技术文字资料的一技术发展轨迹。
【技术特征摘要】
【专利技术属性】
技术研发人员:李沿儒,
申请(专利权)人:真理大学,
类型:发明
国别省市:71
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。