机器学习组件的训练方法及装置、中文分词方法及装置制造方法及图纸

技术编号:24576498 阅读:71 留言:0更新日期:2020-06-21 00:27
本发明专利技术公开了一种机器学习组件的训练方法及装置、中文分词方法及装置,机器学习组件的训练方法包括:将有标记的句子转化为字向量,对无标记的句子进行无监督分词,获得无监督分词结果,将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置,将标签序列转化为标签向量,将标签向量和字向量输入机器学习组件进行训练。无监督分词无需人工标注数据,不受训练语料的限制,可以从存在的海量文本中不断学习,识别出不断出现的新词。本发明专利技术结合了无监督分词和机器学习组件有监督分词的优势,提高机器学习组件对于新词的识别能力。

Training methods and devices of machine learning components, Chinese word segmentation methods and devices

【技术实现步骤摘要】
机器学习组件的训练方法及装置、中文分词方法及装置
本申请涉及自然语言处理的
,尤其涉及一种机器学习组件的训方法及装置、中文分词方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。中文分词是自然语言处理的关键步骤,中文语意理解几乎都是以中文分词为基础的。自然语言处理中,基于神经网络的机器学习组件的有监督分词是较为常用的分词方法。基于神经网络的机器学习组件的有监督分词基于人工标注的大量训练语料训练机器学习组件,对于训练语料中的词汇具有较高的识别准确度,但对于训练语料中未出现过的词汇(称为未登录词或者新词,所谓未登录词或者新词是指没有被收录在训练语料中、但必须被切分出来的词),识别准确度则较低。互联网的迅速发展,导致互联网中每天都会出现大量的新词,例如,新上线的电视剧,新上架的商品,亦或者是新出道的艺人以及新开张的店铺等等,这些新词在互联网中又具有很大的搜索需求。一方面,很难搜集到足够多的新词数据组成较好的训练集;另一方面,机器学习组件的有监督分词对于新词的识别能力有限,不能很好的满足用户期望的搜索需求。因此,现有的机器学习组件的分词方法存在对新词的分词效果差的问题。
技术实现思路
本专利技术实施例提供一种机器学习组件的训练方法,用以提高机器学习组件对于新词的识别能力,该方法包括:将有标记的句子转化为字向量;对无标记的句子进行无监督分词,获得无监督分词结果;将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置;将标签序列转化为标签向量;将标签向量和字向量输入机器学习组件进行训练。本专利技术实施例还提供一种中文分词方法,用以提高机器学习组件对于新词的识别能力,该方法包括:将中文文本输入机器学习组件,获得中文文本的分词结果;其中,所述机器学习组件将无监督分词结果作为先验知识辅助分词。本专利技术实施例还提供一种机器学习组件的训练装置,用以提高机器学习组件对于新词的识别能力,该装置包括:字向量获得模块,用于将有标记的句子转化为字向量;无监督分词模块,用于对无标记的句子进行无监督分词,获得无监督分词结果;标签向量获得模块,用于将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置;将标签序列转化为标签向量;组件训练模块,用于将标签向量和字向量输入机器学习组件进行训练。本专利技术实施例还提供一种中文分词装置,用以提高机器学习组件对于新词的识别能力,该装置包括:输入模块,用于将中文文本输入机器学习组件;结果获得模块,用于获得中文文本的分词结果;其中,所述机器学习组件将无监督分词结果作为先验知识辅助分词。本专利技术实施例还提供一种中文分词系统,用以提高机器学习组件对于新词的识别能力,该系统包括:上述机器学习组件的训练装置,以及上述中文分词装置。本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述机器学习组件的训练方法,或中文分词方法。本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述机器学习组件的训练方法,或中文分词方法的计算机程序。本专利技术实施例中,将有标记的句子转化为字向量,对无标记的句子进行无监督分词,获得无监督分词结果,将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置,将标签序列转化为标签向量,将标签向量和字向量输入机器学习组件进行训练。无监督分词无需人工标注数据,能够自行通过语料中字串的分布规律识别出词语进而实现分词,由于不受训练语料的限制,可以从存在的海量文本中不断学习,识别出不断出现的新词。本专利技术实施例结合了无监督分词和机器学习组件有监督分词的优势,利用无监督分词提升机器学习组件的有监督分词效果,提高机器学习组件对于新词的识别能力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本专利技术实施例提供的中文分词系统的结构示意图;图2为本专利技术实施例提供的中文分词系统中机器学习组件的训练装置和中文分词装置之间的交互示意图;图3为本专利技术实施例提供的机器学习组件的训练装置的功能模块图;图4为本专利技术实施例提供的中文分词装置的功能模块图;图5为本专利技术实施例提供的机器学习组件的训练方法的实现流程图;图6为本专利技术实施例提供的中文分词方法的实现流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。虽然本专利技术提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本专利技术实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行。针对现有的机器学习组件对新词的分词效果差的缺陷,本专利技术的申请人提出了一种机器学习组件的训练方法,其将无监督分词结果作为先验知识辅助机器学习组件分词,结合了无监督分词和机器学习组件有监督分词的优势,利用无监督分词提升机器学习组件的有监督分词效果,达到了提高机器学习组件对于新词的识别能力的目的。有监督学习是指从标签化的训练数据集中推断出函数的机器学习任务,在中文分词领域,标签化的训练数据集即是指由有标记的句子组成的语料库。有监督分词以标签化的语料库作为训练集建立函数模型,再用建立的函数模型对没有标记的中文文本进行分词,该过程称为有监督分词。一方面,基于中文词语的复杂性和多样性,即便是海量的语料库也不能全面涵盖所有的中文词语,存在片面性;另外,语料库中句子的标记需要人工标注,不仅标记效率较低,还可能存在标记错误的情形。另一方面,有监督分词依赖标签化的语料库,其对于语料库中未出现过的词语,即新词,的识别准确度较低。然而随着互联网的快速发展,会出现大量的新词,且这些新词在互联网中又具有很大的搜索需求,然而现实情况很难搜集到足够多的新词组成较好的语料库,导致有监督分词对于新词的识别能力有限。有些情况下,由于缺乏足够的先验知识,难以对训练数据集中的训练样本进行人工标记类型或者人工标记类别的成本太高,根据没有本文档来自技高网...

【技术保护点】
1.一种机器学习组件的训练方法,其特征在于,包括:/n将有标记的句子转化为字向量;/n对无标记的句子进行无监督分词,获得无监督分词结果;/n将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置;/n将标签序列转化为标签向量;/n将标签向量和字向量输入机器学习组件进行训练。/n

【技术特征摘要】
1.一种机器学习组件的训练方法,其特征在于,包括:
将有标记的句子转化为字向量;
对无标记的句子进行无监督分词,获得无监督分词结果;
将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置;
将标签序列转化为标签向量;
将标签向量和字向量输入机器学习组件进行训练。


2.如权利要求1所述的方法,其特征在于,将无监督分词结果转化为标签序列前,还包括:滤除无监督分词结果中的噪音数据。


3.如权利要求1所述的方法,其特征在于,标签表明字在分词中的位置,包括:标签表明字在词的开始、中间或结尾,或字为单字词。


4.如权利要求1所述的方法,其特征在于,将标签向量和字向量输入机器学习组件进行训练,包括:
采用多任务学习方式,将标签向量和字向量输入机器学习组件进行训练。


5.如权利要求4所述的方法,其特征在于,采用多任务学习方式,将标签向量和字向量输入机器学习组件进行训练,包括:
分别用标签向量和字向量训练机器学习组件,在训练过程中,对机器学习组件的参数按参数属性进行更新。


6.如权利要求5所述的方法,其特征在于,对机器学习组件的参数按参数属性进行更新,包括:
若参数属性为共享属性,则根据标签向量和字向量对参数进行更新;
若参数属性为非共享属性,则根据标签向量或字向量对参数进行更新。


7.如权利要求4所述的方法,其特征在于,采用多任务学习方式,将标签向量和字向量输入机器学习组件进行训练,包括:
根据字向量确定有标记的句子的分词结果;根据有标记的句子的分词结果确定字向量对应的损失函数;
根据标签向量确定无标记的句子的分词结果;根据无标记的句子的分词结果确定标签向量对应的损失函数;
根据字向量对应的损失函数和标签向量对应的损失函数确定机器学习组件的损失函数;
调整机器学习组件的参数,直至机器学习组件的损失函数不小于预设值。


8.如权利要求7所述的方法,其特征在于,根据字向量确定有标记的句子的分词结果,包括:
根据字向量确定与有标记的句子对应的每个候选分词结果中每个词的词向量;
根据每个候选分词结果中每个词的词向量,确定每个候选分词结果的候选得分;
将候选得分最高的候选分词结果作为有标记的句子的分词结果。


9.如权利要求7所述的方法,其特征在于,根据标签向量确定无标记的句子的分词结果,包括:
根据标签向量确定与无标记的句子对应的每个候选分词结果中每个词的词向量;
根据每个候选分词结果中每个词的词向量,确定每个候选分词结果的候选得分;
将候选得分最高的候选分词结果作为无标记的句子的分词结果。


10.如权利要求8或9所述的方法,其特征在于,根据每个候选分词结果中每个词的词向量,确定每个候选分词结果的候选得分,包括:
根据每个候选分词结果中每个词的词向量确定每个词的词得分;
根据每个候选分词结果中每个词的词向量确定每个词的合理性得分;
根据每个候选分词结果中每个词的词得分和合理性得分,确定每个候选分词结果的候选得分。


11.一种中文分词方法,其特征在于,包括:
将中文文本输入机器学习组件,获得中文文本的分词结果;
其中,所述机器学习组件将无监督分词结果作为先验知识辅助分词。


12.如权利要求11所述的方法,其特征在于,所述机器学习组件基于如下步骤进行训练:
将有标记的句子转化为字向量;
对无标记的句子进行无监督分词,获得无监督分词结果;
将无监督分词结果转化为标签序列,标签序列中每一标签对应句子中每一字,标签表明字在分词中的位置;
将标签序列转化为标签向量;
将标签向量和字向量输入机器学习组件进行训练。


13.如权利要求12所述的方法,其特征在于,将无监督分词结果转化为标签序列前,还包括:滤除无监督分词结果中的噪音数据。


14.如权利要求12所述的方法,其特征在于,标签表明字在分词中的位置,包括:标签表明字在词的开始、中间或结尾,或字为单字词。


15.如权利要求12所述的...

【专利技术属性】
技术研发人员:王潇斌徐光伟李林琳司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1