一种网页文本的中文分词方法和装置制造方法及图纸

技术编号：13779829 阅读：93 留言：0更新日期：2016-10-04 13:20

本发明专利技术提供了一种网页文本的中文分词装置及方法。该装置包括：前期处理模块、最大匹配模块、神经网络消歧模块和文本输出模块。与现有技术比较本发明专利技术的有益效果在于：本申请提供的一种网页文本的中文分词装置及方法，通过根据正、反向最大匹配得到一部分的分词结果，一部分带有歧义的语句，然后运用神经网络的自学习、并行处理等优点处理歧义语句，结合双向最大匹配和神经网络的优点，互相补充，能高效快速地处理网页文本分词。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网页文本分词
，尤其涉及一种网页文本的中文分词方法和装置。
技术介绍
随着移动互联网的快速发展，人们的日常生活与互联网紧密相连，互联网信息成为信息获取的主要来源，已经广泛渗透到各个领域。因而运营商积累了越来越多的用户上网行为和相关信息，实时营销的广泛应用，使得对用户需求分析成为及其重要的一部分。为了从大量的资源信息中获取有价值的信息，自然语言处理技术得到了广大互联网公司的重视，中文分词是中文信息处理的前提和基础，是自然语言处理技中至关重要的步骤。中文分词指的是将一个汉字序列切分成一个个单独的词，将连续的字序列按照一定的规范重新组合成词序列的过程。对于一段话，人们阅读后很快就可以理解划分词语，对于计算机而言，并不能理解这段话的意思。因此涌现了很多中文分词方法，大致可分为三种：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。由于中文语句的复杂性和多样性，分词技术的难点表现在歧义识别和消歧、未登录词识别。现有的解决交集型歧义识别和消除的文本分词方法处理速度较慢。鉴于上述缺陷，本专利技术创作者经过长时间的研究和试验,最终获得了本专利技术。
技术实现思路
本专利技术的目的在于提供一种网页文本的中文分词方法和装置用以克服上述技术缺陷。为实现上述目的，本专利技术采用的技术方案在于：一方面提供了一种网页文本的中文分词方法，该方法包括以下步骤：步骤S1，提取网页文本并对所述网页文本进行预处理；步骤S2，利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对
短语句的文本内容进行切分，得出两种分词结果，并判断两种分词结果是...

【技术保护点】
一种网页文本的中文分词方法，其特征在于，该方法包括以下步骤：步骤S1，提取网页文本并对所述网页文本进行预处理；步骤S2，利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分，得出两种分词结果，并判断两种分词结果是否相同，若相同，执行步骤S4，若不相同，执行步骤S3；步骤S3，利用已经训练完毕的BP神经网络对歧义字段分词，得到相应的分词结果；步骤S4，对未登录词识别并输出最终的网页文本分词结果。

【技术特征摘要】
1.一种网页文本的中文分词方法，其特征在于，该方法包括以下步骤：步骤S1，提取网页文本并对所述网页文本进行预处理；步骤S2，利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分，得出两种分词结果，并判断两种分词结果是否相同，若相同，执行步骤S4，若不相同，执行步骤S3；步骤S3，利用已经训练完毕的BP神经网络对歧义字段分词，得到相应的分词结果；步骤S4，对未登录词识别并输出最终的网页文本分词结果。2.根据权利要求1所述的一种网页文本的中文分词方法，其特征在于，所述步骤S1包括以下步骤：步骤S11，利用网页爬虫获取网页文本；步骤S12，将所述网页文本分割成一段段的短语句，缩减网页文本字符的长度；步骤S13，对所述短语句进行词性标注；步骤S14，对词性标注后的短语句转换为映射值对(index,value)，其中value指短语句的文本内容，index指value在网页文本中的位置。3.根据权利要求2所述的一种网页文本的中文分词方法，其特征在于，所述步骤S2中的正向最大匹配中文分词方法包括以下步骤：步骤S210，从每一个value的首字开始扫描，预先设定以该字开头的所有词语中最大词长为N，取出词长为N的汉子串，若value的长度小于N，则将value的实际长度赋值给N，并将该长度为N的字符串设为Str；步骤S211，将Str与词典进行匹配，若在词典中找到Str，则将划分成value中的一个词语，若匹配词典不成功，则将Str的尾字去掉重新赋值给Str，再将Str与词典再一次匹配，若匹配则Str成功分词，否则继续去掉Str的尾字重新赋值给Str；步骤S212，依此类推，直到与词典匹配成功或N的长度为1为止，一次分词结束，继续将value作为首字对余下网页文本进行分词；步骤S213，输出正向匹配分词结果。4.根据权利要求2所述的一种网页文本的中文分词方法，其特征在于，所述步骤S2中的反向最大匹配中文分词方法包括以下步骤：步骤S220，从每一个value的尾字开始扫描，预先设定以该字开头的所有词语中最大词长为N，取出词长为N的汉子串，若value的长度小于N，则将value的实际长度赋值给N，并将该长度为N的字符串设为Str；步骤S221，将Str与词典进行匹配，若在词典中找到Str，则将划分成value中的一个词语，若匹配词典不成功，则将Str的首字去掉重新赋值给Str，再将Str与词典再一次...

【专利技术属性】
技术研发人员：简宋全，邹立斌，李青海，侯大勇，
申请(专利权)人：广州精点计算机科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人