一种无监督中文分词系统及方法技术方案

技术编号：34105058 阅读：9 留言：0更新日期：2022-07-12 00:17

本发明专利技术公开了一种无监督中文分词系统及方法，包括文本获取模块、预处理模块、数据库，分词模块、成型输出模块，文本获取模块用于从互联网上获取大量文本数据，并将文本数据储存入数据库，预处理模块用于提取数据库中未处理的文本，训练分词模型，对文本进行分词处理，并将得到的分词结果输入至第一训练模型，第训练模型对分词结果进行第一解码处理，以得到分词解码结果，基于数据库生成对应分词的问题，并对问题进行分词处理。本发明专利技术针对中文自然语言处理领域中的分词任务进行优化补充，可以在无标注数据的条件下实现中文分词，有效提升了汉语无监督分词测评任务中F1值，提高分词工作效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种无监督中文分词系统及方法

[0001]本专利技术属于中文分词研究领域，尤其涉及一种无监督中文分词系统及方法。

技术介绍

[0002]汉语分词是指连续的中文字符串按照一定的规范分割成词序列的过程。国际上常用的对文本进行深层次的语法语义分析的方法，都是以词作为基本单位。中文词是由单个汉字组成，很多单个汉字本身无法独立作为一个词来应用或起到语法作用。然而在中文文本中，汉字是连写的，词之间没有空格，无法直接获取到哪几个汉字组成一个中文词。因此我们对此做出改进，提出一种无监督中文分词系统及方法。

技术实现思路

[0003]本专利技术的目的在于克服现有技术存在的以上问题，提供一种无监督中文分词系统及方法，针对中文自然语言处理领域中的分词任务进行优化补充，可以在无标注数据的条件下实现中文分词，有效提升了汉语无监督分词测评任务中F1值，提高分词工作效率。
[0004]为实现上述技术目的，达到上述技术效果，本专利技术通过以下技术方案实现：一种无监督中文分词系统及方法，包括文本获取模块、预处理模块、数据库，分词模块、成型输出模块；所述文本获取模块用于从互联网上获取大量文本数据，并将文本数据储存入数据库；所述预处理模块用于提取数据库中未处理的文本，训练分词模型，对文本进行分词处理，并将得到的分词结果输入至第一训练模型，第训练模型对分词结果进行第一解码处理，以得到分词解码结果，基于数据库生成对应分词的问题，并对问题进行分词处理，将得到的问题分词结果输入至第二训练模型，第二训练模型对问题分词结果进行第二解码处理，以

【技术保护点】

【技术特征摘要】
1.一种无监督中文分词系统，其特征在于，包括文本获取模块、预处理模块、数据库，分词模块、成型输出模块；所述文本获取模块用于从互联网上获取大量文本数据，并将文本数据储存入数据库；所述预处理模块用于提取数据库中未处理的文本，训练分词模型，对文本进行分词处理，并将得到的分词结果输入至第一训练模型，第训练模型对分词结果进行第一解码处理，以得到分词解码结果，基于数据库生成对应分词的问题，并对问题进行分词处理，将得到的问题分词结果输入至第二训练模型，第二训练模型对问题分词结果进行第二解码处理，以得到问题解码结果；所述分词模块用于根据分词算法对需要分词的文本进行分词处理，再将分词后的文本存入数据库；所述成型输出模块用于根据分词模块输出结果输出相应分词文本。2.根据权利要求1所述的一种无监督中文分词方法，其特征在于，所述方法包括以下步骤：A、文本获取模块用于从互联网上获取大量文本数据，对将文本转换为一种在构建分词器时使用的格式存储我们的数据，创建包含数据集中文本特征的纯文本文件并拆分文本，并将文本数据储存入数据库；B、预处理模块用于提取数据库中未处理的文本，训练分...

【专利技术属性】
技术研发人员：高腾，朱旭琪，王欢，夏茂晋，
申请(专利权)人：安徽清博大数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人