一种基于深度学习的中文分词方法和装置制造方法及图纸

技术编号：22076127 阅读：66 留言：0更新日期：2019-09-12 14:16

本发明专利技术实施例提供了一种基于深度学习的中文分词方法和装置。本发明专利技术涉及人工智能技术领域，该方法包括：将训练语料数据转换为字符级的数据；将字符级的数据转换为序列数据；根据预设符号将序列数据进行切分，得到多个子序列数据，根据子序列数据的长度将多个子序列数据进行分组，得到K个数据集合；根据K个数据集合，得到K个训练后的时序卷积神经网络‑条件随机场模型；将目标语料数据经过处理后的数据输入K个训练后的时序卷积神经网络‑条件随机场模型中的至少一个训练后的时序卷积神经网络‑条件随机场模型，得到目标语料数据的分词结果。因此，本发明专利技术实施例提供的技术方案能够解决现有技术中中文分词精确度低的问题。

A Chinese Word Segmentation Method and Device Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的中文分词方法和装置
本专利技术涉及人工智能
，尤其涉及一种基于深度学习的中文分词方法和装置。
技术介绍
目前深度学习中文分词算法主要基于以长短时记忆(LSTM)为代表的循环神经网络模型及其衍生模型，但是LSTM模型在序列数据问题中的处理能力随着序列长度的增加而下降，存在中文分词精确度低的问题。
技术实现思路
有鉴于此，本专利技术实施例提供了一种基于深度学习的中文分词方法和装置，用以解决现有技术中中文分词精确度低的问题。一方面，本专利技术实施例提供了一种基于深度学习的中文分词方法，所述方法包括：将训练语料数据转换为字符级的数据；将所述字符级的数据转换为序列数据；根据预设符号将所述序列数据进行切分，得到多个子序列数据，根据子序列数据的长度将所述多个子序列数据进行分组，得到K个数据集合，所述K个数据集合中的每个数据集合包含的子序列数据的长度相等，K为大于1的自然数；从第i个数据集合中抽取多个子序列数据并将抽取的所述多个子序列数据输入第i个时序卷积神经网络-条件随机场模型中，训练所述第i个时序卷积神经网络-条件随机场模型，得到训练后的第i个时序卷积神经网络-条件随机场模型，i依次取1至K之间的自然数，一共得到K个训练后的时序卷积神经网络-条件随机场模型；将目标语料数据转换为字符级的数据，得到第一数据，将所述第一数据转换为序列数据，得到第二数据，将所述第二数据输入所述K个训练后的时序卷积神经网络-条件随机场模型中的至少一个训练后的时序卷积神经网络-条件随机场模型，得到所述目标语料数据的分词结果。进一步地，所述将所述字符级的数据转换为序...

【技术保护点】
1.一种基于深度学习的中文分词方法，其特征在于，所述方法包括：将训练语料数据转换为字符级的数据；将所述字符级的数据转换为序列数据；根据预设符号将所述序列数据进行切分，得到多个子序列数据，根据子序列数据的长度将所述多个子序列数据进行分组，得到K个数据集合，所述K个数据集合中的每个数据集合包含的子序列数据的长度相等，K为大于1的自然数；从第i个数据集合中抽取多个子序列数据并将抽取的所述多个子序列数据输入第i个时序卷积神经网络‑条件随机场模型中，训练所述第i个时序卷积神经网络‑条件随机场模型，得到训练后的第i个时序卷积神经网络‑条件随机场模型，i依次取1至K之间的自然数，一共得到K个训练后的时序卷积神经网络‑条件随机场模型；将目标语料数据转换为字符级的数据，得到第一数据，将所述第一数据转换为序列数据，得到第二数据，将所述第二数据输入所述K个训练后的时序卷积神经网络‑条件随机场模型中的至少一个训练后的时序卷积神经网络‑条件随机场模型，得到所述目标语料数据的分词结果。

【技术特征摘要】
1.一种基于深度学习的中文分词方法，其特征在于，所述方法包括：将训练语料数据转换为字符级的数据；将所述字符级的数据转换为序列数据；根据预设符号将所述序列数据进行切分，得到多个子序列数据，根据子序列数据的长度将所述多个子序列数据进行分组，得到K个数据集合，所述K个数据集合中的每个数据集合包含的子序列数据的长度相等，K为大于1的自然数；从第i个数据集合中抽取多个子序列数据并将抽取的所述多个子序列数据输入第i个时序卷积神经网络-条件随机场模型中，训练所述第i个时序卷积神经网络-条件随机场模型，得到训练后的第i个时序卷积神经网络-条件随机场模型，i依次取1至K之间的自然数，一共得到K个训练后的时序卷积神经网络-条件随机场模型；将目标语料数据转换为字符级的数据，得到第一数据，将所述第一数据转换为序列数据，得到第二数据，将所述第二数据输入所述K个训练后的时序卷积神经网络-条件随机场模型中的至少一个训练后的时序卷积神经网络-条件随机场模型，得到所述目标语料数据的分词结果。2.根据权利要求1所述的方法，其特征在于，所述将所述字符级的数据转换为序列数据，包括：通过预设编码方式将所述字符级的数据转换为所述序列数据，所述预设编码方式为以下任意一种：独热编码或者词转向量编码。3.根据权利要求1所述的方法，其特征在于，所述将抽取的所述多个子序列数据输入第i个时序卷积神经网络-条件随机场模型中，训练所述第i个时序卷积神经网络-条件随机场模型，得到训练后的第i个时序卷积神经网络-条件随机场模型，包括：S1，将抽取的所述多个子序列数据输入第i个时序卷积神经网络进行前向传播，得到第一输出数据，所述第i个时序卷积神经网络是所述第i个时序卷积神经网络-条件随机场模型中的时序卷积神经网络；S2，根据所述第一输出数据与输入的所述多个子序列数据计算损失函数的值；S3，如果所述损失函数的值大于预设值，则将所述多个子序列数据输入所述第i个时序卷积神经网络进行反向传播，并对所述第i个时序卷积神经网络的网络参数进行优化；S4，循环步骤S1至S3，直至所述损失函数的值小于或等于所述预设值；S5，如果所述损失函数的值小于或等于所述预设值，确定训练完成，得到训练后的第i个时序卷积神经网络；S6，将所述训练后的第i个时序卷积神经网络输出的数据输入第i个条件随机场，并对所述第i个条件随机场进行训练，得到所述训练后的第i个时序卷积神经网络-条件随机场模型，所述第i个条件随机场是所述第i个时序卷积神经网络-条件随机场模型中的条件随机场。4.根据权利要求3所述的方法，其特征在于，所述对所述第i个条件随机场进行训练，包括：根据所述训练后的第i个时序卷积神经网络输出的数据计算所述第i个条件随机场的输出数据的条件概率；使用最大似然估计方法训练得到所述第i个条件随机场的输出数据的条件概率的最大值。5.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述第二数据输入所述K个训练后的时序卷积神经网络-条件随机场模型中的至少一个训练后的时序卷积神经网络-条件随机场模型，得到所述目标语料数据的分词结果，包括：根据预设符号将所述第二数据进行切分，得到多个序列数据；根据序列数据的长度将所述多个序列数据进行分组，得到L个数据集合，所述L个数据集合中每个数据集合包含的所有序列数据的长度相等，L为自然数，1≤L≤K；根据训练过程中使用的子序列数据的长度从所述K个训练后的时序卷积神经网络-条件随机场模型中筛选出L个训练后...

【专利技术属性】
技术研发人员：陈闽川，马骏，王少军，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人