一种自动搜寻文件中关键词的方法,包括一串列产生程序、一候选元素选取程序、一结合程序以及一关键词取出程序。选取串列中的第一个元素作为前候选元素,以及第二个元素作为后候选元素。当前候选元素与后候选元素的出现次数均高于一阀值时,前候选元素与后候选元素合并为一合并元素。当候选元素的出现次数高于该阀值,将候选元素置入关键词串列,以得到电脑可读取文件中的关键词。本发明专利技术还包括一种实现此方法的自动搜寻文件中关键词的系统。(*该技术在2020年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及一种自动搜寻文件中关键词的方法与系统,特别是一种不需经过断词处理,直接搜寻文件中关键词的自动搜寻文件中关键词的方法与系统。随著科技的发展,现今的时代已经成为一资讯爆炸的时代,大量的文件,例如新闻、论文、评论与专利资料等,均可藉由电脑与网际网络快速地流通,因此,文件取得困难的问题已大幅减少,取而代之是文件的搜寻与整理等问题。如果采用传统图书馆的分类方式,依照领域来对由电脑与网际网络来流通的文件进行逐篇分类,则势必要用人工阅读的方式将文件一一归类,如此将需要大量的人力来进行文件整理的工作。若单纯以编号的方式来整理,则欲搜寻资料又相当不便。因此,许多电脑科学的研究学者均开始尝试用电脑来自动找出文件中的关键字,用以搜寻或整理大量的文件。一般而言,若欲利用电脑来找出一电脑可读取文件中的关键词,多半均先对文件进行断词处理后,再依断词的结果来找出文件的关键词。所谓的“断词”,是指将由成串字元所组成的文句进行分割,使文句被切割成许多有意义的词汇。例如,若文件中包括了“台北市政府”,则先将“台北市政府”分割成为”台北市”与”政府,再根据文件中两者的出现次数,来决定其是否为文件的关键词。然而,若欲实时处理大量的文件时,例如对一文件资料库中的所有文件依关键词进行自动分类,或是在网络上欲实时地利用关键字来对数篇文件进行过滤时,利用断词法来找寻文件中的关键字将太过耗时。此外,若欲对文件进行断词处理,则势必要另外维护断词所需的文法规则资料库或字词资料库,耗费额外的时间与成本。所以,如何利用电脑技术来提供一种简单且快速的关键词学习方法与系统,以便处理大量的文件,并进一步使用于例如文件自动摘要、文件自动分类或文件自动过滤等资料检索的相关应用上,已成为一亟待解决的重要问题。针对上述问题,本专利技术的目的为提供一种自动搜寻文件中关键词的方法与系统,其可利用电脑技术自动搜寻电脑可读取文件中的关键词,以大幅缩短搜索关键词所需的时间。本专利技术的另一目的为提供一种自动搜寻文件中关键词的方法与系统,其不需对文件进行断词处理,故处理速度快,且不需维护复杂的文法规则资料库或字词资料库。本专利技术的另一目的为提供一种自动搜寻文件中关键词的方法与系统,其可有效率地处理大量的文件,并可进一步使用于例如文件自动摘要、文件自动分类或文件自动过滤等资料检索的相关应用。为达上述目的,依本专利技术的自动搜寻文件中关键词的方法包括一串列产生程序、一候选元素选取程序、一结合程序以及一关键词取出程序。串列产生程序计算一电脑可读取文件中的所有双连文的出现次数,并将双连文置于一串列中,以作为串列的多个元素。候选元素选取程序选取串列中的第一个元素作为前候选元素,以及第二个元素作为后候选元素。结合程序是当前候选元素与后候选元素的出现次数均高于一阀值时,将前候选元素与后候选元素合并为一合并元素。将合并元素置于一合并串列中,并将合并元素的出现次数加一。关键词取出程序则当前候选元素的出现次数高于该阀值,且前候选元素先前尚未与其它元素结合过时。将前候选元素置入关键词串列,以得到电脑可读取文件中的关键词。本专利技术还提供一种自动搜寻文件中关键词的系统,包括一串列产生模块、一候选元素选取模块、一结合模块以及一关键词取出模块。串列产生模块计算一电脑可读取文件中的所有双连文的出现次数,并将双连文置于一串列中,以作为串列的多个元素。候选元素选取模块选取串列中的第一个元素作为前候选元素,以及第二个元素作为后候选元素。结合模块是当前候选元素与后候选元素的出现次数均高于一阀值时,将前候选元素与后候选元素合并为一合并元素,将合并元素置于一合并串列中,并将合并元素的出现次数加一。关键词取出模块则当前候选元素的出现次数高于该阀值,且前候选元素先前尚未与其它元素结合过时,将前候选元素置入关键词串列,以得到电脑可读取文件中的关键词。附图说明图1为一流程图,显示依本专利技术较佳实施例的自动搜寻文件中关键词的方法的流程。图2为一示意图,显示依本专利技术较佳实施例的自动搜寻文件中关键词的系统的组成。附图符号说1自动搜寻文件中关键词的方法102第一判断程序101串列产生程序 103合并串列清空程序104候选元素选取程序 21串列产生模块105第二判断程序 22合并串列清空模块106结合程序 23候选元素选取模块107第三判断程序 24结合模块108关键词取出程序 25关键词取出模块109第四判断程序 26候选元素移位模块110候选元素移位程序 27取代模块111取代程序 51文件2自动搜寻文件中关键词的系统 52关键词以下将参照相关附图,说明依本专利技术较佳实施例的自动搜寻文件中关键词的方法与系统,其中相同的元件将以相同的参照符号加以说明。首先,在本专利技术中所谓的“多连文(N-gram)”指文件内容中所有可能出现的多字词。以“中文资讯检索”短句为例,其所可能产生的“双连文(Bigram)”有五个,分别为中文、文资、资讯、讯检、检索其所可能产生的“三连文(Trigram)”则有四个,分别为中文资`文资讯、资讯检、讯检索依此类推,对于一文件的内容,可一直取到N连文为止。一般,可将N设为文件中所可能出现词的最大长度,例如,对于“中文资讯检索”而言,其最长可以取到六连文,即“中文资讯检索”本身。由于具有完整意义的词,如上述的“中文”、“资讯”等,必定会在文件中完整出现,而不会只出现其中一部份。而另一方面,可单独出现的词也多半为具有完整意义的词,例如“资讯检索”具有完整意义,但“资讯”亦有完整意义,故亦可单独在文件中的其它地方出现。所以,本专利技术采用上述的原理作为基本假设,即”关键词将于文件中重覆出现”,以及”具有完整意义的词不会只部份出现于文件中”来对文件进行关键字的搜寻。请参照图1,依本专利技术较佳实施例的自动搜寻文件中关键词的方法1是先进行一串列产生程序101,以计算一电脑可读取文件中的所有双连文的出现次数,并将双连文置于一串列中,以作为串列的多个元素。以“资讯系资讯检索系统”为例,其可能产生的双连文为“资讯”、“讯系”、“系资”、“资讯”与“讯检”、“检索”、“索系”与“系统”,且除了“资讯”的出现次数为两次之外,各双连文的出现次数皆为一次,故于串列产生程序101中,即将各双连文加入串列中以作为元素,并记录各该双连文的出现次数。接着,在第一判断程序102中,判断串列是否为空串列。此时,由于串列中尚有元素,故接着进行合并串列清空程序103,以删除合并串列中所有的元素。事实上,此时在合并串列中并无任何元素存在,故此时合并串列清空程序103不需进行任何删除的动作。接着,在候选元素选取程序104中,选取串列中的第一个元素以作为前候选元素,并选取串列中的第二个元素以作为后候选元素。在本实施例中,由于串列的第一个元素为“资讯”,第二个元素为“讯系”,故此时前候选元素即为“资讯”,而后候选元素则为“讯系”。然后,第二判断程序105判别前候选元素与后候选元素的出现次数是否均高于阀值,若是则进行结合程序106,以将前候选元素与后候选元素合并为一合并元素。阀值的大小可依实际需要加以设定,例如依照文件的长度加以调整,长度越长的文件则阀值越大,长度越短的文件则阀值越小。在本实施例中由于“资讯系资讯检索系统”的长度较本文档来自技高网...
【技术保护点】
一种自动搜寻文件中关键词的方法,包含: 一串列产生程序,计算一电脑可读取文件中的所有双连文的出现次数,并将此类双连文置于一串列中,以作为该串列的多个元素; 一候选元素选取程序,选取该串列中的第一个元素为前候选元素,并选取该串列中的第二个元素为后候选元素; 一结合程序,当该前候选元素与该后候选元素的出现次数均高于一阀值时,将该前候选元素与该后候选元素合并为一合并元素,将该合并元素置于一合并串列中,并将该合并元素的出现次数加一;以及 一关键词取出程序,当该前候选元素的出现次数高于该阀值,且该前候选元素先前尚未与其它元素结合过时,将该前候选元素置入关键词串列,以得到该电脑可读取文件中的关键词。
【技术特征摘要】
【专利技术属性】
技术研发人员:杨立伟,
申请(专利权)人:意蓝科技股份有限公司,
类型:发明
国别省市:71[中国|台湾]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。