一种中文新词语的检测方法及其检测系统技术方案

技术编号:2861620 阅读:306 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种中文新词语的检测方法及其检测系统。本发明专利技术基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时间信息和内容,对其切分并在切分的基础上查找重复串,然后存入原始数据库,再在给定时间的基础上,将原始数据库划分成给定时间以前和给定时间以后的两个数据库,将这两个数据库进行对比,得到新词候选列表,最后的结果由人工确认一下。本发明专利技术通过对比寻找某个时间点以后的新词语,可以寻找不限长度和构成的多字词与多字词组成的新词,并利用词的构成规律来滤除垃圾串,具有时效性高的特点。(*该技术在2024年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及新词语的检测方法,特别涉及一种中文新词语的检测方法及其检测系统
技术介绍
自然语言中新词的不断涌现是一个客观规律,随着经济、社会的飞速发展和对外交流的日渐频繁,特别是Internet的普遍使用,这一现象变得更加明显,有研究统计,中国20年来平均每年产生800多个词语。但是,对于汉语这样词与词之间没有明确边界的语言,识别新词比较困难。大体上,汉语中的新词语按来源可以分为以下几类1.命名实体包括人名、地名、音译名、商品名、公司字号、机构名等;2.缩略语如“非典”、“计生委”等;3.方言词如“靓”、“买单”等;4.新造词如“伊妹儿”、“美眉”等;5.专业术语如“非典型肺炎”、“蓝光光盘”等;6.音译词如“酷”、“秀”、“克隆”等;7.外来字母词如WTO、APEC、SARS等。这些类型的新词语中,除了第一类“命名实体”有一定的构成规律、最后一类“外来字母词”可以直接识别外,其他各类新词都没有明显的构成规律,识别非常困难。目前的新词识别研究以“命名实体”类的研究较多,其中又以人名、地名、音译名识别率为较高,正确率和召回率都可以达到90%以上,机构名构成规律较为复杂,识别正确率和召回率较低一些。除命名实体外,其他类型的新词语的自动识别研究比较少。现在,编辑出版的专门的新词语词典,影响较大的如商务印书馆出版的《新华新词语词典》,新增词语四千多条,分成信息、财经、环保、医药、体育、军事、科技等类别,日常生活惯用新词语,如‘克隆’、‘双赢’等已被收录,而具争议性的词语,如‘包二奶’、‘泡妞’,经讨论后也被涵括在内,主要还是以人工方式为主进行编辑的,不仅效率不高,检索内容不全面,而且,现有的基于语料库的新词自动提取的技术,其主要步骤是先利用公共词汇表以及标点符号,新词模板等等对原始语料库进行分段,然后通过构建GAST结构将分段的语料库分割成子串并统计子串在语料库中出现的次数,最后过滤掉假词,输出新词,该方法的主要不足在于1)只是单纯的提取子串作为新词,并没有考虑词语的时间的因素。2)提取的子串也只是限于单字词组成的串以及单字词和多字词组成的串,没有考虑多字词与多字词组成的串。3)滤除假词的方法比较简单。
技术实现思路
本专利技术的目的在于克服现有新词检测的方法采用人工检索的低效问题,以及基于语料库的新词自动提取的技术在时效性低以及新词查找范围不全的缺陷,从而为除命名实体外的其他类型的新词语提供一种中文新词语的检测方法及其检测系统。本专利技术的目的是这样实现的为实现上述目的,本专利技术提供的中文新词语的检测方法基于Internet提取含有时间信息的网页信息进行词法分析,查找出在网页中所有的重复串,并连同重复串的时间信息一并存入原始数据库,同时把词和词的时间信息也存入原始数据库,根据给定的时间,将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库,对比背景数据库和过滤数据库中的词和串,生成符合阈值条件的新词候选列表,然后,根据构词的词性规则过滤新词候选列表中的垃圾串,最终检测出新词语;所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。所述网页信息的提取,首先是对其进行基于模板的网页内容和时间信息的提取,如果网页提取解析失败,则再进行一次基于特征的网页内容和时间信息的提取。所述的词法分析是采用概率词法分析系统ICTCLAS切分所提取的网页正文内容得到词和词性。所述原始数据库中建有两个表,一个是用于存放文档信息的文档索引表,另一个是按文档存放的词串表。所述的阈值条件为未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5,出现频率大于等于10次是新词。所述的垃圾串的过滤,依照以下规则进行①对于新词候选里面出现功能词,则加以滤除;②对于新词候选是由单个字组成的串,不予过滤;③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉;形容词+形容词=形容词;名词+名词=名词;形容词+名词=名词;④对于新词候选是单个词的,不予过滤。本专利技术提供的中文新词语的检测系统,该检测系统利用一计算机基于Internet提取含有时间信息的网页信息检测新词,该计算机包括网页采集模块,用于采集指定新闻网站的网页,并按照网站结构存入硬盘;网页处理模块,用于提取网页中正文的内容和时间、进行词法分析、执行重复串查找指令和生成原始数据库;新词查找模块,用于对比原始数据库中给定的时间前后的词和串,生成符合阈值条件的新词候选列表,并进行新词候选列表的垃圾串过滤;输出模块,用于输出检测出的不限长度和构成的新词语;所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。所述网页处理模块,首先是对其进行基于模板的网页内容和时间信息的提取,如果网页提取解析失败,则再进行一次基于特征的网页内容和时间信息的提取。所述网页处理模块采用概率词法分析系统ICTCLAS切分所提取的网页正文内容得到词和词性。所述网页处理模块生成的原始数据库中建有两个表,一个是用于存放文档信息的文档索引表,另一个是按文档存放的词串表。所述的阈值条件为未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5,出现频率大于等于10次的重复串是新词。所述的垃圾串的过滤,依照以下规则进行①对于新词候选里面出现功能词,则加以滤除;②对于新词候选是由单个字组成的串,不予过滤;③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉形容词+形容词=形容词;名词+名词=名词;形容词+名词=名词;④对于新词候选是单个词的,不予过滤。本专利技术的优点在于本专利技术中文新词语的检测方法及其检测系统,与现有的技术相比,优点有1)引入词语的时间概念,可以寻找某个时间点以后的新词语。根据某个时间点将所有的词和重复串(其中包括多字词与多字词组成的串)划分成两个可供对比的集合,通过对比寻找某个时间点以后的新词语。2)在对比的同时也已经将大部分常用的在一起的词与词搭配的重复串都滤掉了(比如“本报讯”等),起到了一部分过滤的作用。3)可以寻找不限长度和构成的多字词与多字词组成的新词(比如“邪恶轴心”)。4)利用词的构成规律来滤除垃圾串。5)随着Internet的蓬勃发展,Internet上面蕴藏着海量的信息量,因此与从语料库中寻找新词相比,从Internet上寻找新词具有时效性高的特点。附图说明图1是依据本专利技术实现的系统框架2是网页处理模块实现的流程3是新词查找模块实现的流程4是图1中重复串查找的示意5是图2中重复串查找的示意图具体实施方式下面通过实施例并结合附图描述本专利技术中文新词语的检测方法,如图1所本文档来自技高网
...

【技术保护点】
一种中文新词语的检测方法,该方法基于Internet提取含有时间信息的网页信息进行词法分析,查找出在网页中所有的重复串,并连同重复串的时间信息一并存入原始数据库,同时把词和词的时间信息也存入原始数据库,根据给定的时间,将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库,对比背景数据库和过滤数据库中的词和串,生成符合阈值条件的新词候选列表,然后,根据构词的词性规则过滤新词候选列表中的垃圾串,最终检测出新词语;所述重复串的查找,首先搜索出网页正文内 容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。

【技术特征摘要】
1.一种中文新词语的检测方法,该方法基于Internet提取含有时间信息的网页信息进行词法分析,查找出在网页中所有的重复串,并连同重复串的时间信息一并存入原始数据库,同时把词和词的时间信息也存入原始数据库,根据给定的时间,将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库,对比背景数据库和过滤数据库中的词和串,生成符合阈值条件的新词候选列表,然后,根据构词的词性规则过滤新词候选列表中的垃圾串,最终检测出新词语;所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。2.按权利要求1所述的中文新词语的检测方法,其特征在于,所述网页信息的提取,首先是对其进行基于模板的网页内容和时间信息的提取,如果网页提取解析失败,则再进行一次基于特征的网页内容和时间信息的提取。3.按权利要求1所述的中文新词语的检测方法,其特征在于,所述的词法分析是采用概率词法分析系统ICTCLAS切分所提取的网页正文内容得到词和词性。4.按权利要求1所述的中文新词语的检测方法,其特征在于,所述原始数据库中建有两个表,一个是用于存放文档信息的文档索引表,另一个是按文档存放的词串表。5.按权利要求1所述的中文新词语的检测方法,其特征在于,所述的阈值条件为未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5,出现频率大于等于10次是新词。6.按权利要求1所述的中文新词语的检测方法,其特征在于,所述的垃圾串的过滤,依照以下规则进行①对于新词候选里面出现功能词,则加以滤除;②对于新词候选是由单个字组成的串,不予过滤;③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉形容词+形容词=形容词;名词+名词=名词;形容词+名词=名词;④对于新词候选是单个词的,不予过滤。7.一种中文新词语的检...

【专利技术属性】
技术研发人员:邹纲刘群
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1