词典数据更新方法及系统、储存媒体及计算机程序产品技术方案

技术编号:7457537 阅读:274 留言:0更新日期:2012-06-23 20:19
本发明专利技术提供一种词典数据更新方法,包括以下步骤:联机数据来源网址;开启数据来源网页并取得来源网页原始码;根据来源网页过滤规则过滤来源网页原始码的内容,以留存一组关键词及一组关键词释义网址;根据来源网页数据提取规则获取关键词及关键词释义网址;连向特定关键词对应的特定关键词释义网址,以开启释义网页并取得释义网页原始码;根据释义网页过滤规则过滤释义网页原始码的内容,以留存关键词释义数据;根据释义网页数据提取规则获取关键词释义数据;以及将特定关键词及对应的关键词释义数据储存至词典数据库。

【技术实现步骤摘要】

本专利技术涉及一种词典数据更新方法,尤其是关于一种可根据规则获取数据的词典数据更新方法。
技术介绍
随着因特网的发达,越来越多人利用网络来处理各种大小事务,如购物、玩游戏、 经营商店等,其中也有很多使用者利用网络来阅读文章。但由于网络文化的盛行,在阅读常常会遇到许多具有特殊含意的网络用语,如“冏”、“Orz”及“》)”等等。这些网络用语大多是由谐音或错别字改编而成,也有一部份是从象形字以及论坛上引起流行的经典语录而来,若不了解这些网络用语的意思,很有可能会误解别人想要表达的意思,或者看得莫名其妙。这时候若能将不断增多的网络用语汇集起来,并且持续更新存到自己的词典数据库内, 在阅读时就不会出现上述的问题。
技术实现思路
本专利技术为解决
技术介绍
中存在的上述技术问题,而提出词典数据更新方法、词典数据更新系统、储存媒体及计算机程序产品。本专利技术的技术解决方案是本专利技术为一种词典数据更新方法,用来通过网络联机更新词典数据库的数据,其特殊之处在于该方法包含下列步骤1)从数据来源网页取得来源网页原始码;2)根据来源网页过滤规则过滤来源网页原始码的内容,以留存关键词及关键词释义网址,其中关键词对应于关键词释义网址;3)根据来源网页数据提取规则获取关键词及关键词释义网址;4)根据关键词及关键词释义网址,从关键词释义网页取得释义网页原始码;5)根据释义网页过滤规则过滤释义网页原始码的内容,以留存关键词释义数据;6)利用处理器,根据释义网页数据提取规则获取关键词释义数据;7)根据关键词释义数据,更新词典数据库。上述方法包括步骤8)分析来源网页原始码的网页数据卷标,以建立来源网页过滤规则及来源网页数据提取规则。上述步骤8)包括以下步骤8. 1)预先储存来源网页过滤规则在数据分析模块中;8. 2)预先储存来源网页数据提取规则于数据提取模块中。上述方法包括步骤9)分析释义网页原始码的网页数据卷标,以建立释义网页过滤规则及释义网页数据提取规则。上述步骤9)包括以下步骤9. 1)预先储存释义网页过滤规则于数据分析模块中;9. 2)预先储存释义网页数据提取规则于数据提取模块中。一种词典数据更新系统,用来通过网络联机更新词典数据库的数据,其特殊之处在于该系统包括联机模块,用来从数据来源网页取得来源网页原始码及从关键词释义网页取得释义网页原始码;数据分析模块,与联机模块电性连接,用来根据来源网页过滤规则过滤来源网页原始码的内容,以留存关键词及关键词释义网址,其中关键词对应于关键词释义网址;及用来根据释义网页过滤规则过滤释义网页原始码的内容,以留存关键词释义数据;数据提取模块,与数据分析模块电性连接,用来根据来源网页数据提取规则获取关键词及关键词释义网址;及根据释义网页数据提取规则获取关键词释义数据;数据库更新模块,与数据提取模块电性连接,用来根据关键词释义数据,更新词典数据库。上述来源网页过滤规则及来源网页数据提取规则通过分析来源网页原始码的网页数据卷标而建立;并预先储存来源网页过滤规则于数据分析模块中及预先储存来源网页数据提取规则于数据提取模块中。上述释义网页过滤规则及释义网页数据提取规则通过分析释义网页原始码的网页数据卷标而建立;并预先储存释义网页过滤规则于数据分析模块中及预先储存释义网页数据提取规则于数据提取模块中。一种内储用于词典数据更新程序的计算机程序产品,其特殊之处在于当计算机加载程序并执行后,可完成如权利要求1所述的方法。一种内储程序的计算机可读取记录媒体,其特殊之处在于当计算机加载程序并执行后,可完成如权利要求1所述的方法。本专利技术提供的一种词典数据更新方法、词典数据更新系统、储存媒体及计算机程序产品,可以自动从指定的网址上,按照设定的格式获取数据,再将得到的数据添加入词典数据库中,从而达到实时更新的效果。除了从网络获取网络用语的解释外,本专利技术方法也可用于获取外国语言的文字及其解释,再存入词典数据库中,以扩增词典的数据量。附图说明图1为本专利技术词典数据更新系统的架构图2为本专利技术词典数据更新方法的步骤流程图3为本专利技术具体实施例的数据来源网页示意图4为本专利技术具体实施例的来源网页原始码示意图5为本专利技术具体实施例的关键词释义网页示意图。具体实施方式参见图1,词典数据更新系统1包括取得模块10、联机模块20、数据分析模块30、 数据提取模块40及数据库更新模块50,可通过网络90连接到数据来源网页71及关键词释义网页76以获取数据,之后再将数据储存到词典数据库100内。需注意的是,在本专利技术实施例中,上述各个模块除可配置为硬件装置、软件程序、韧体或其组合外,也可通过电路回路或其它适当型式配置。其中,当任一模块为利用软件实施时,其可载于计算机可读取储存媒体。各个模块除可以单独型式配置外,也可以结合型式配置。此外,此中仅例示本专利技术较佳实施例,为避免赘述,并未详加记载所有可能的变化组合。然而,本领域通常知识者应可理解,上述各模块或组件未必皆为必要。且为实施本专利技术,也可能包含其它较细节的已知模块或组件。各模块或组件皆可能视需求加以省略或修改,且任两模块间未必不存在其它模块或组件。在本专利技术实施例中,取得模块10用来取得数据来源网址;此数据来源网址可以由使用者指定,或是事先设定以供本系统使用。之后由联机模块20连向此网址以开启数据来源网页71,并取得此数据来源网页71的来源网页原始码。需注意的是,如何自网页取得网页原始码已有许多先前技术可供使用,故不在此赘述。取得来源网页原始码后,由数据分析模块30根据来源网页过滤规则,对来源网页原始码的内容作过滤,但保留一组关键词及一组关键词释义网址,其中任一组关键词会与一组关键词释义网址对应。之后由数据提取模块40根据来源网页数据提取规则,将被保留的一组关键词及一组关键词释义网址获取出来。当关键词及关键词释义网址被获取出来后,联机模块20再次启动,连向某个特定关键词对应的一组关键词释义网址中的某一特定关键词释义网址,以开启对应的关键词释义网页76,并取得此关键词释义网页76的释义网页原始码。之后由数据分析模块30根据释义网页过滤规则,对释义网页原始码的内容作过滤,但保留关键词释义数据,再由数据提取模块40根据释义网页数据提取规则,将被保留的关键词释义数据获取出来。最后,由数据库更新模块50将特定关键词及对应的关键词释义数据储存至词典数据库100中。参见图2,需注意的是,以下本专利技术词典数据更新方法虽以图1所示词典数据更新系统1进行说明,但本专利技术方法并不以应用于词典数据更新系统1为限。首先进行步骤201 取得数据来源网址。首先通过取得模块10取得数据来源网址,以供进行后续步骤。此数据来源网址可以由使用者指定,或是事先设定以供使用。接着进行步骤202:连向数据来源网址以开启数据来源网页,并取得数据来源网页的来源网页原始码。参见图3,在取得数据来源网址70后,本专利技术通过联机模块20连向此网址,以开启数据来源网页71 ;并取得图4所示的来源网页原始码72。接着进行步骤203 根据来源网页过滤规则过滤来源网页原始码的内容,留存一组关键词及一组关键词释义网址。参见图4,取得来源网页原始码72后,可通过数据分析模块30,根据以下来源网页过滤规则作过滤先找到来源网页过滤文字<hl class=" top.keyword" 本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:陈淮琰席溪
申请(专利权)人:无敌科技西安有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术