一种网页文本的中文分词方法和装置制造方法及图纸

技术编号:13779829 阅读:87 留言:0更新日期:2016-10-04 13:20
本发明专利技术提供了一种网页文本的中文分词装置及方法。该装置包括:前期处理模块、最大匹配模块、神经网络消歧模块和文本输出模块。与现有技术比较本发明专利技术的有益效果在于:本申请提供的一种网页文本的中文分词装置及方法,通过根据正、反向最大匹配得到一部分的分词结果,一部分带有歧义的语句,然后运用神经网络的自学习、并行处理等优点处理歧义语句,结合双向最大匹配和神经网络的优点,互相补充,能高效快速地处理网页文本分词。

【技术实现步骤摘要】

本专利技术涉及网页文本分词
,尤其涉及一种网页文本的中文分词方法和装置
技术介绍
随着移动互联网的快速发展,人们的日常生活与互联网紧密相连,互联网信息成为信息获取的主要来源,已经广泛渗透到各个领域。因而运营商积累了越来越多的用户上网行为和相关信息,实时营销的广泛应用,使得对用户需求分析成为及其重要的一部分。为了从大量的资源信息中获取有价值的信息,自然语言处理技术得到了广大互联网公司的重视,中文分词是中文信息处理的前提和基础,是自然语言处理技中至关重要的步骤。中文分词指的是将一个汉字序列切分成一个个单独的词,将连续的字序列按照一定的规范重新组合成词序列的过程。对于一段话,人们阅读后很快就可以理解划分词语,对于计算机而言,并不能理解这段话的意思。因此涌现了很多中文分词方法,大致可分为三种:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。由于中文语句的复杂性和多样性,分词技术的难点表现在歧义识别和消歧、未登录词识别。现有的解决交集型歧义识别和消除的文本分词方法处理速度较慢。鉴于上述缺陷,本专利技术创作者经过长时间的研究和试验,最终获得了本专利技术。
技术实现思路
本专利技术的目的在于提供一种网页文本的中文分词方法和装置用以克服上述技术缺陷。为实现上述目的,本专利技术采用的技术方案在于:一方面提供了一种网页文本的中文分词方法,该方法包括以下步骤:步骤S1,提取网页文本并对所述网页文本进行预处理;步骤S2,利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对
短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同,若相同,执行步骤S4,若不相同,执行步骤S3;步骤S3,利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果;步骤S4,对未登录词识别并输出最终的网页文本分词结果。较佳的,所述步骤S1包括以下步骤:步骤S11,利用网页爬虫获取网页文本;步骤S12,将所述网页文本分割成一段段的短语句,缩减网页文本字符的长度;步骤S13,对所述短语句进行词性标注;步骤S14,对词性标注后的短语句转换为映射值对(index,value),其中value指短语句的文本内容,index指value在网页文本中的位置。较佳的,所述步骤S2中的正向最大匹配中文分词方法包括以下步骤:步骤S210,从每一个value的首字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str;步骤S211,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的尾字去掉重新赋值给Str,再将Str与词典再一次匹配,若匹配则Str成功分词,否则继续去掉Str的尾字重新赋值给Str;步骤S212,依此类推,直到与词典匹配成功或N的长度为1为止,一次分词结束,继续将value作为首字对余下网页文本进行分词;步骤S213,输出正向匹配分词结果。较佳的,所述步骤S2中的反向最大匹配中文分词方法包括以下步骤:步骤S220,从每一个value的尾字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str;步骤S221,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的首字去掉重新赋值给Str,再将Str与词典再一次匹配,若匹配则Str成功分词,否则继续去掉Str的首字重新赋值
给Str;步骤S222,依此类推,直到与词典匹配成功或N的长度为1为止,一次分词结束,继续将value作为尾字对余下网页文本进行分词。步骤S223,输出反向匹配分词结果。又一方面提供了一种网页文本的中文分词装置,该装置包括:前期处理模块,用于提取网页文本并对所述网页文本进行预处理;最大匹配模块,用于利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同;神经网络消歧模块,用于利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果;文本输出模块,用于对未登录词识别并输出最终的网页文本分词结果。较佳的,所述前期处理模块包括:文本提取单元,用于利用网页爬虫获取网页文本;粗切分单元,用于将所述网页文本分割成一段段的短语句,缩减网页文本字符的长度;词性标记单元,用于对所述短语句进行词性标注;词性转换单元,用于对词性标注后的短语句转换为映射值对(index,value),其中value指短语句的文本内容,index指value在网页文本中的位置。较佳的,所述最大匹配模块包括:正向最大匹配模块,用于运用正向最大匹配中文分词方法对短语句的文本内容进行切分,得到正向匹配分词结果;反向最大匹配模块,用于运用反向最大匹配中文分词方法对短语句的文本内容进行切分,得到反向匹配分词结果;比较异同单元,用于判断所述两种分词结果是否相同。较佳的,所述神经网络消歧模块包括:语句预处理单元,用于依据Unicode码和自定义不同类型对应词性代码,对包含各类型交集型歧义的语句训练样本进行逐一编码,变成神经网络能够识别、学习和存储的数值向量形式,送至神经网络输入层;BP神经网络单元,用于根据模型总公式得到网络输出值,通过梯度下降法对误差逆传播进行修正权值;转码输出分词结果单元,用于将通过BP神经网络单元计算得到的向量型输出,根据一定的数值范围转化成带有“/”分词的语句。较佳的,所述文本输出模块包括:未登录词识别单元,用于对未登录词进行识别;最终分词结果输出单元,用于输出最终的分词结果。与现有技术比较本专利技术的有益效果在于:本申请提供的一种网页文本的中文分词装置及方法,通过根据正、反向最大匹配得到一部分的分词结果,一部分带有歧义的语句,然后运用神经网络的自学习、并行处理等优点处理歧义语句,结合双向最大匹配和神经网络的优点,互相补充,能高效快速地处理网页文本分词。附图说明图1为本专利技术提供的一种网页文本的中文分词装置的功能框图;图2为前期处理模块的功能框图;图3为最大匹配模块的功能框图;图4为神经网络消歧模块的功能框图;图5为文本输出模块的功能框图;图6为本专利技术提供的一种网页文本的中文分词方法的流程图;图7为步骤S1的流程示意图;图8为步骤S2中正向最大匹配中文分词方法的流程图;图9为步骤S2中反向最大匹配中文分词方法的流程图。具体实施方式为便于进一步理解本专利技术的
技术实现思路
,下面结合附图对本专利技术作进一步说明。实施例一如图1所示,为本专利技术提供的一种网页文本的中文分词装置的功能框图,该装置包括:前期处理模块1,用于提取网页文本并对所述网页文本进行预处理。最大匹配模块2,用于利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果
是否相同。神经网络消歧模块3,用于利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果。文本输出模块4,用于对未登录词识别并输出最终的网页文本分词结果。本文档来自技高网
...

【技术保护点】
一种网页文本的中文分词方法,其特征在于,该方法包括以下步骤:步骤S1,提取网页文本并对所述网页文本进行预处理;步骤S2,利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同,若相同,执行步骤S4,若不相同,执行步骤S3;步骤S3,利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果;步骤S4,对未登录词识别并输出最终的网页文本分词结果。

【技术特征摘要】
1.一种网页文本的中文分词方法,其特征在于,该方法包括以下步骤:步骤S1,提取网页文本并对所述网页文本进行预处理;步骤S2,利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同,若相同,执行步骤S4,若不相同,执行步骤S3;步骤S3,利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果;步骤S4,对未登录词识别并输出最终的网页文本分词结果。2.根据权利要求1所述的一种网页文本的中文分词方法,其特征在于,所述步骤S1包括以下步骤:步骤S11,利用网页爬虫获取网页文本;步骤S12,将所述网页文本分割成一段段的短语句,缩减网页文本字符的长度;步骤S13,对所述短语句进行词性标注;步骤S14,对词性标注后的短语句转换为映射值对(index,value),其中value指短语句的文本内容,index指value在网页文本中的位置。3.根据权利要求2所述的一种网页文本的中文分词方法,其特征在于,所述步骤S2中的正向最大匹配中文分词方法包括以下步骤:步骤S210,从每一个value的首字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str;步骤S211,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的尾字去掉重新赋值给Str,再将Str与词典再一次匹配,若匹配则Str成功分词,否则继续去掉Str的尾字重新赋值给Str;步骤S212,依此类推,直到与词典匹配成功或N的长度为1为止,一次分词结束,继续将value作为首字对余下网页文本进行分词;步骤S213,输出正向匹配分词结果。4.根据权利要求2所述的一种网页文本的中文分词方法,其特征在于,所述步骤S2中的反向最大匹配中文分词方法包括以下步骤:步骤S220,从每一个value的尾字开始扫描,预先设定以该字开头的所有词语中最大词长为N,取出词长为N的汉子串,若value的长度小于N,则将value的实际长度赋值给N,并将该长度为N的字符串设为Str;步骤S221,将Str与词典进行匹配,若在词典中找到Str,则将划分成value中的一个词语,若匹配词典不成功,则将Str的首字去掉重新赋值给Str,再将Str与词典再一次...

【专利技术属性】
技术研发人员:简宋全邹立斌李青海侯大勇
申请(专利权)人:广州精点计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1