【技术实现步骤摘要】
机器学习组件的训练方法及装置、中文分词方法及装置
本申请涉及自然语言处理的
,尤其涉及一种机器学习组件的训方法及装置、中文分词方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。中文分词是自然语言处理的关键步骤,中文语意理解几乎都是以中文分词为基础的。自然语言处理中,基于神经网络的机器学习组件的有监督分词是较为常用的分词方法。基于神经网络的机器学习组件的有监督分词基于人工标注的大量训练语料训练机器学习组件,对于训练语料中的词汇具有较高的识别准确度,但对于训练语料中未出现过的词汇(称为未登录词或者新词,所谓未登录词或者新词是指没有被收录在训练语料中、但必须被切分出来的词),识别准确度则较低。互联网的迅速发展,导致互联网中每天都会出现大量的新词,例如,新上线的电视剧,新上架的商品,亦或者是新出道的艺人以及新开张的店铺等等,这些新词在互联网中又具有很大的搜索需求。一方面,很难搜集到足够多的新词数据组成较好的训练集;另一方面,机器学习组件的有监督分词对于新词的识别能力有限,不能很好的满足用户期望的搜索需求。因此,现有的机器学习组件的分词方法存在对新词的分词效果差的问题。
技术实现思路
本专利技术实施例提供一种机器学习组件的训练方法,用以提高机器学习组件对于新词的识别能力,该方法包括:将有标记的句子转化为字向量;对无标记的句子进行无监督分词,获得无监督分词结果;将无监督分 ...
【技术保护点】
1.一种机器学习组件的训练方法,其特征在于,包括:/n将有标记的句子转化为字向量;/n对无标记的句子进行无监督分词,获得无监督分词结果;/n将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置;/n将标签序列转化为标签向量;/n将标签向量和字向量输入机器学习组件进行训练。/n
【技术特征摘要】
1.一种机器学习组件的训练方法,其特征在于,包括:
将有标记的句子转化为字向量;
对无标记的句子进行无监督分词,获得无监督分词结果;
将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置;
将标签序列转化为标签向量;
将标签向量和字向量输入机器学习组件进行训练。
2.如权利要求1所述的方法,其特征在于,将无监督分词结果转化为标签序列前,还包括:滤除无监督分词结果中的噪音数据。
3.如权利要求1所述的方法,其特征在于,标签表明字在分词中的位置,包括:标签表明字在词的开始、中间或结尾,或字为单字词。
4.如权利要求1所述的方法,其特征在于,将标签向量和字向量输入机器学习组件进行训练,包括:
采用多任务学习方式,将标签向量和字向量输入机器学习组件进行训练。
5.如权利要求4所述的方法,其特征在于,采用多任务学习方式,将标签向量和字向量输入机器学习组件进行训练,包括:
分别用标签向量和字向量训练机器学习组件,在训练过程中,对机器学习组件的参数按参数属性进行更新。
6.如权利要求5所述的方法,其特征在于,对机器学习组件的参数按参数属性进行更新,包括:
若参数属性为共享属性,则根据标签向量和字向量对参数进行更新;
若参数属性为非共享属性,则根据标签向量或字向量对参数进行更新。
7.如权利要求4所述的方法,其特征在于,采用多任务学习方式,将标签向量和字向量输入机器学习组件进行训练,包括:
根据字向量确定有标记的句子的分词结果;根据有标记的句子的分词结果确定字向量对应的损失函数;
根据标签向量确定无标记的句子的分词结果;根据无标记的句子的分词结果确定标签向量对应的损失函数;
根据字向量对应的损失函数和标签向量对应的损失函数确定机器学习组件的损失函数;
调整机器学习组件的参数,直至机器学习组件的损失函数不小于预设值。
8.如权利要求7所述的方法,其特征在于,根据字向量确定有标记的句子的分词结果,包括:
根据字向量确定与有标记的句子对应的每个候选分词结果中每个词的词向量;
根据每个候选分词结果中每个词的词向量,确定每个候选分词结果的候选得分;
将候选得分最高的候选分词结果作为有标记的句子的分词结果。
9.如权利要求7所述的方法,其特征在于,根据标签向量确定无标记的句子的分词结果,包括:
根据标签向量确定与无标记的句子对应的每个候选分词结果中每个词的词向量;
根据每个候选分词结果中每个词的词向量,确定每个候选分词结果的候选得分;
将候选得分最高的候选分词结果作为无标记的句子的分词结果。
10.如权利要求8或9所述的方法,其特征在于,根据每个候选分词结果中每个词的词向量,确定每个候选分词结果的候选得分,包括:
根据每个候选分词结果中每个词的词向量确定每个词的词得分;
根据每个候选分词结果中每个词的词向量确定每个词的合理性得分;
根据每个候选分词结果中每个词的词得分和合理性得分,确定每个候选分词结果的候选得分。
11.一种中文分词方法,其特征在于,包括:
将中文文本输入机器学习组件,获得中文文本的分词结果;
其中,所述机器学习组件将无监督分词结果作为先验知识辅助分词。
12.如权利要求11所述的方法,其特征在于,所述机器学习组件基于如下步骤进行训练:
将有标记的句子转化为字向量;
对无标记的句子进行无监督分词,获得无监督分词结果;
将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置;
将标签序列转化为标签向量;
将标签向量和字向量输入机器学习组件进行训练。
13.如权利要求12所述的方法,其特征在于,将无监督分词结果转化为标签序列前,还包括:滤除无监督分词结果中的噪音数据。
14.如权利要求12所述的方法,其特征在于,标签表明字在分词中的位置,包括:标签表明字在词的开始、中间或结尾,或字为单字词。
15.如权利要求12所述的...
【专利技术属性】
技术研发人员:王潇斌,徐光伟,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。