自动搜寻文件中关键词的方法与系统技术方案

技术编号：2881676 阅读：467 留言：0更新日期：2012-04-11 18:40

一种自动搜寻文件中关键词的方法，包括一串列产生程序、一候选元素选取程序、一结合程序以及一关键词取出程序。选取串列中的第一个元素作为前候选元素，以及第二个元素作为后候选元素。当前候选元素与后候选元素的出现次数均高于一阀值时，前候选元素与后候选元素合并为一合并元素。当候选元素的出现次数高于该阀值，将候选元素置入关键词串列，以得到电脑可读取文件中的关键词。本发明专利技术还包括一种实现此方法的自动搜寻文件中关键词的系统。（*该技术在2020年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种自动搜寻文件中关键词的方法与系统，特别是一种不需经过断词处理，直接搜寻文件中关键词的自动搜寻文件中关键词的方法与系统。随著科技的发展，现今的时代已经成为一资讯爆炸的时代，大量的文件，例如新闻、论文、评论与专利资料等，均可藉由电脑与网际网络快速地流通，因此，文件取得困难的问题已大幅减少，取而代之是文件的搜寻与整理等问题。如果采用传统图书馆的分类方式，依照领域来对由电脑与网际网络来流通的文件进行逐篇分类，则势必要用人工阅读的方式将文件一一归类，如此将需要大量的人力来进行文件整理的工作。若单纯以编号的方式来整理，则欲搜寻资料又相当不便。因此，许多电脑科学的研究学者均开始尝试用电脑来自动找出文件中的关键字，用以搜寻或整理大量的文件。一般而言，若欲利用电脑来找出一电脑可读取文件中的关键词，多半均先对文件进行断词处理后，再依断词的结果来找出文件的关键词。所谓的“断词”，是指将由成串字元所组成的文句进行分割，使文句被切割成许多有意义的词汇。例如，若文件中包括了“台北市政府”，则先将“台北市政府”分割成为”台北市”与”政府，再根据文件中两者的出现次数，来决定其是否为文件的关键词。然而，若欲实时处理大量的文件时，例如对一文件资料库中的所有文件依关键词进行自动分类，或是在网络上欲实时地利用关键字来对数篇文件进行过滤时，利用断词法来找寻文件中的关键字将太过耗时。此外，若欲对文件进行断词处理，则势必要另外维护断词所需的文法规则资料库或字词资料库，耗费额外的时间与成本。所以，如何利用电脑技术来提供一种简单且快速的关键词学习方法与系统，以便处理大量的文件，并进...

【技术保护点】
一种自动搜寻文件中关键词的方法，包含：一串列产生程序，计算一电脑可读取文件中的所有双连文的出现次数，并将此类双连文置于一串列中，以作为该串列的多个元素；一候选元素选取程序，选取该串列中的第一个元素为前候选元素，并选取该串列中的第二个元素为后候选元素；一结合程序，当该前候选元素与该后候选元素的出现次数均高于一阀值时，将该前候选元素与该后候选元素合并为一合并元素，将该合并元素置于一合并串列中，并将该合并元素的出现次数加一；以及一关键词取出程序，当该前候选元素的出现次数高于该阀值，且该前候选元素先前尚未与其它元素结合过时，将该前候选元素置入关键词串列，以得到该电脑可读取文件中的关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨立伟，
申请(专利权)人：意蓝科技股份有限公司，
类型：发明
国别省市：71[中国|台湾]

全部详细技术资料下载我是这个专利的主人