一种中文新词语的检测方法及其检测系统技术方案

技术编号：2861620 阅读：316 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种中文新词语的检测方法及其检测系统。本发明专利技术基于Ｉｎｔｅｒｎｅｔ的中文新词语自动检测的方法，包括网页采集，网页信息处理和新词查找三个部分，且充分利用了从Ｉｎｔｅｒｎｅｔ采集而来的网页上的时间信息，从网页中提取时间信息和内容，对其切分并在切分的基础上查找重复串，然后存入原始数据库，再在给定时间的基础上，将原始数据库划分成给定时间以前和给定时间以后的两个数据库，将这两个数据库进行对比，得到新词候选列表，最后的结果由人工确认一下。本发明专利技术通过对比寻找某个时间点以后的新词语，可以寻找不限长度和构成的多字词与多字词组成的新词，并利用词的构成规律来滤除垃圾串，具有时效性高的特点。（*该技术在2024年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及新词语的检测方法，特别涉及一种中文新词语的检测方法及其检测系统。
技术介绍
自然语言中新词的不断涌现是一个客观规律，随着经济、社会的飞速发展和对外交流的日渐频繁，特别是Internet的普遍使用，这一现象变得更加明显，有研究统计，中国20年来平均每年产生800多个词语。但是，对于汉语这样词与词之间没有明确边界的语言，识别新词比较困难。大体上，汉语中的新词语按来源可以分为以下几类1.命名实体包括人名、地名、音译名、商品名、公司字号、机构名等；2.缩略语如“非典”、“计生委”等；3.方言词如“靓”、“买单”等；4.新造词如“伊妹儿”、“美眉”等；5.专业术语如“非典型肺炎”、“蓝光光盘”等；6.音译词如“酷”、“秀”、“克隆”等；7.外来字母词如WTO、APEC、SARS等。这些类型的新词语中，除了第一类“命名实体”有一定的构成规律、最后一类“外来字母词”可以直接识别外，其他各类新词都没有明显的构成规律，识别非常困难。目前的新词识别研究以“命名实体”类的研究较多，其中又以人名、地名、音译名识别率为较高，正确率和召回率都可以达到90％以上，机构名构成规律较为复杂，识别正确率和召回率较低一些。除命名实体外，其他类型的新词语的自动识别研究比较少。现在，编辑出版的专门的新词语词典，影响较大的如商务印书馆出版的《新华新词语词典》，新增词语四千多条，分成信息、财经、环保、医药、体育、军事、科技等类别，日常生活惯用新词语，如‘克隆’、‘双赢’等已被收录，而具争议性的词语，如‘包二奶’、‘泡妞’，经讨论后也被涵括在内，主要还是以人工方式为主进行编辑的，不仅效率...

【技术保护点】
一种中文新词语的检测方法，该方法基于Ｉｎｔｅｒｎｅｔ提取含有时间信息的网页信息进行词法分析，查找出在网页中所有的重复串，并连同重复串的时间信息一并存入原始数据库，同时把词和词的时间信息也存入原始数据库，根据给定的时间，将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库，对比背景数据库和过滤数据库中的词和串，生成符合阈值条件的新词候选列表，然后，根据构词的词性规则过滤新词候选列表中的垃圾串，最终检测出新词语；所述重复串的查找，首先搜索出网页正文内容中连续出现的次数大于１次以上的至少由两个符号组成的符号串，记录下每一种符号出现的所有的位置；然后，按照符号从少到多的顺序对尾字相同的符号串进行排序，当前一个串是后一个串的子串，且两者的频率完全一样时，将前一个串从数组中删除，归并得到文本中所有的重复串。

【技术特征摘要】
1.一种中文新词语的检测方法，该方法基于Internet提取含有时间信息的网页信息进行词法分析，查找出在网页中所有的重复串，并连同重复串的时间信息一并存入原始数据库，同时把词和词的时间信息也存入原始数据库，根据给定的时间，将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库，对比背景数据库和过滤数据库中的词和串，生成符合阈值条件的新词候选列表，然后，根据构词的词性规则过滤新词候选列表中的垃圾串，最终检测出新词语；所述重复串的查找，首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串，记录下每一种符号出现的所有的位置；然后，按照符号从少到多的顺序对尾字相同的符号串进行排序，当前一个串是后一个串的子串，且两者的频率完全一样时，将前一个串从数组中删除，归并得到文本中所有的重复串。2.按权利要求1所述的中文新词语的检测方法，其特征在于，所述网页信息的提取，首先是对其进行基于模板的网页内容和时间信息的提取，如果网页提取解析失败，则再进行一次基于特征的网页内容和时间信息的提取。3.按权利要求1所述的中文新词语的检测方法，其特征在于，所述的词法分析是采用概率词法分析系统ICTCLAS切分所提取的网页正文内容得到词和词性。4.按权利要求1所述的中文新词语的检测方法，其特征在于，所述原始数据库中建有两个表，一个是用于存放文档信息的文档索引表，另一个是按文档存放的词串表。5.按权利要求1所述的中文新词语的检测方法，其特征在于，所述的阈值条件为未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5，出现频率大于等于10次是新词。6.按权利要求1所述的中文新词语的检测方法，其特征在于，所述的垃圾串的过滤，依照以下规则进行①对于新词候选里面出现功能词，则加以滤除；②对于新词候选是由单个字组成的串，不予过滤；③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串，串的词性序列一旦不符合下面的规则，则将被过滤掉形容词+形容词＝形容词；名词+名词＝名词；形容词+名词＝名词；④对于新词候选是单个词的，不予过滤。7.一种中文新词语的检...

【专利技术属性】
技术研发人员：邹纲，刘群，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人