一种无监督中文分词系统及方法技术方案

技术编号:34105058 阅读:9 留言:0更新日期:2022-07-12 00:17
本发明专利技术公开了一种无监督中文分词系统及方法,包括文本获取模块、预处理模块、数据库,分词模块、成型输出模块,文本获取模块用于从互联网上获取大量文本数据,并将文本数据储存入数据库,预处理模块用于提取数据库中未处理的文本,训练分词模型,对文本进行分词处理,并将得到的分词结果输入至第一训练模型,第训练模型对分词结果进行第一解码处理,以得到分词解码结果,基于数据库生成对应分词的问题,并对问题进行分词处理。本发明专利技术针对中文自然语言处理领域中的分词任务进行优化补充,可以在无标注数据的条件下实现中文分词,有效提升了汉语无监督分词测评任务中F1值,提高分词工作效率。率。率。

【技术实现步骤摘要】
一种无监督中文分词系统及方法


[0001]本专利技术属于中文分词研究领域,尤其涉及一种无监督中文分词系统及方法。

技术介绍

[0002]汉语分词是指连续的中文字符串按照一定的规范分割成词序列的过程。国际上常用的对文本进行深层次的语法语义分析的方法,都是以词作为基本单位。中文词是由单个汉字组成,很多单个汉字本身无法独立作为一个词来应用或起到语法作用。然而在中文文本中,汉字是连写的,词之间没有空格,无法直接获取到哪几个汉字组成一个中文词。因此我们对此做出改进,提出一种无监督中文分词系统及方法。

技术实现思路

[0003]本专利技术的目的在于克服现有技术存在的以上问题,提供一种无监督中文分词系统及方法,针对中文自然语言处理领域中的分词任务进行优化补充,可以在无标注数据的条件下实现中文分词,有效提升了汉语无监督分词测评任务中F1值,提高分词工作效率。
[0004]为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:一种无监督中文分词系统及方法,包括文本获取模块、预处理模块、数据库,分词模块、成型输出模块;所述文本获取模块用于从互联网上获取大量文本数据,并将文本数据储存入数据库;所述预处理模块用于提取数据库中未处理的文本,训练分词模型,对文本进行分词处理,并将得到的分词结果输入至第一训练模型,第训练模型对分词结果进行第一解码处理,以得到分词解码结果,基于数据库生成对应分词的问题,并对问题进行分词处理,将得到的问题分词结果输入至第二训练模型,第二训练模型对问题分词结果进行第二解码处理,以得到问题解码结果;所述分词模块用于根据分词算法对需要分词的文本进行分词处理,再将分词后的文本存入数据库;所述成型输出模块用于根据分词模块输出结果输出相应分词文本。
[0005]一种无监督中文分词方法:A、文本获取模块用于从互联网上获取大量文本数据,,对将文本转换为一种在构建分词器时使用的格式存储我们的数据,创建包含数据集中文本特征的纯文本文件并拆分文本,并将文本数据储存入数据库;B、预处理模块用于提取数据库中未处理的文本,训练分词模型,对文本进行分词处理,并将得到的分词结果输入至第一训练模型,第训练模型对分词结果进行第一解码处理,以得到分词解码结果,基于数据库生成对应分词的问题,并对问题进行分词处理,将得到的问题分词结果输入至第二训练模型,第二训练模型对问题分词结果进行第二解码处理,以得到问题解码结果;
C、分词模块用于根据分词算法对需要分词的文本进行分词处理,再将分词后的文本存入数据库;D、成型输出模块用于根据分词模块输出结果输出相应分词文本。
[0006]进一步地,所述分词模块工作方法步骤如下:S1、调取第一训练模型、第二训练模型,保存词表文件;S2、待分词的文本序列,选择作为词语的起始位置,将用mask替换后输入到BERT模型中,得到对应的向量;S3、将文本序列和都使用mask替换输入到BERT模型中,得到对应的向量;S4、计算向量和之间的相关度;S5、若相关度小于阈值,则将和断开,否则选择重复S2至S4步骤,直到小于阈值,将断开,当中一个词组;S6、选择作为词语的起始位置,重复S2至S5步骤;S7、阈值默认设置为0.45。
[0007]本专利技术的有益效果是:该种无监督中文分词系统及方法,针对中文自然语言处理领域中的分词任务进行优化补充,可以在无标注数据的条件下实现中文分词,有效提升了汉语无监督分词测评任务中F1值,提高分词工作效率。
附图说明
[0008]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术的流程图;图2是本专利技术的局部模块示意图。
具体实施方式
[0009]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0010]如图1所示的一种无监督中文分词系统及方法,包括文本获取模块、预处理模块、数据库,分词模块、成型输出模块;所述文本获取模块用于从互联网上获取大量文本数据,并将文本数据储存入数据库;所述预处理模块用于提取数据库中未处理的文本,训练分词模型,对文本进行分词处理,并将得到的分词结果输入至第一训练模型,第训练模型对分词结果进行第一解码处理,以得到分词解码结果,基于数据库生成对应分词的问题,并对问题进行分词处理,将
得到的问题分词结果输入至第二训练模型,第二训练模型对问题分词结果进行第二解码处理,以得到问题解码结果;所述分词模块用于根据分词算法对需要分词的文本进行分词处理,再将分词后的文本存入数据库;所述成型输出模块用于根据分词模块输出结果输出相应分词文本。
[0011]一种无监督中文分词方法:A、文本获取模块用于从互联网上获取大量文本数据,,对将文本转换为一种在构建分词器时使用的格式存储我们的数据,创建包含数据集中文本特征的纯文本文件并拆分文本,并将文本数据储存入数据库;B、预处理模块用于提取数据库中未处理的文本,训练分词模型,对文本进行分词处理,并将得到的分词结果输入至第一训练模型,第训练模型对分词结果进行第一解码处理,以得到分词解码结果,基于数据库生成对应分词的问题,并对问题进行分词处理,将得到的问题分词结果输入至第二训练模型,第二训练模型对问题分词结果进行第二解码处理,以得到问题解码结果;C、分词模块用于根据分词算法对需要分词的文本进行分词处理,再将分词后的文本存入数据库;D、成型输出模块用于根据分词模块输出结果输出相应分词文本。
[0012]如图2所示,分词模块工作方法步骤如下:S1、调取第一训练模型、第二训练模型,保存词表文件;S2、待分词的文本序列,选择作为词语的起始位置,将用mask替换后输入到BERT模型中,得到对应的向量;S3、将文本序列和都使用mask替换输入到BERT模型中,得到对应的向量;S4、计算向量和之间的相关度;S5、若相关度小于阈值,则将和断开,否则选择重复S2至S4步骤,直到小于阈值,将断开,当中一个词组;S6、选择作为词语的起始位置,重复S2至S5步骤;S7、阈值默认设置为0.45。
[0013]在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本专利技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0014]以上显示和描述了本专利技术的基本原理、主要特征和本专利技术的优点。本行业的技术人员应该了解,本专利技术不受上述实施例的限制,上述实施例和说明书中描述的只是说明本专利技术的原理,在不脱离本专利技术精神和范围的前提下,本专利技术还会有各种变化和改进,这些变...

【技术保护点】

【技术特征摘要】
1.一种无监督中文分词系统,其特征在于,包括文本获取模块、预处理模块、数据库,分词模块、成型输出模块;所述文本获取模块用于从互联网上获取大量文本数据,并将文本数据储存入数据库;所述预处理模块用于提取数据库中未处理的文本,训练分词模型,对文本进行分词处理,并将得到的分词结果输入至第一训练模型,第训练模型对分词结果进行第一解码处理,以得到分词解码结果,基于数据库生成对应分词的问题,并对问题进行分词处理,将得到的问题分词结果输入至第二训练模型,第二训练模型对问题分词结果进行第二解码处理,以得到问题解码结果;所述分词模块用于根据分词算法对需要分词的文本进行分词处理,再将分词后的文本存入数据库;所述成型输出模块用于根据分词模块输出结果输出相应分词文本。2.根据权利要求1所述的一种无监督中文分词方法,其特征在于,所述方法包括以下步骤:A、文本获取模块用于从互联网上获取大量文本数据,对将文本转换为一种在构建分词器时使用的格式存储我们的数据,创建包含数据集中文本特征的纯文本文件并拆分文本,并将文本数据储存入数据库;B、预处理模块用于提取数据库中未处理的文本,训练分...

【专利技术属性】
技术研发人员:高腾朱旭琪王欢夏茂晋
申请(专利权)人:安徽清博大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1