一种语言模型得分的生成方法及装置制造方法及图纸

技术编号:20724968 阅读:56 留言:0更新日期:2019-03-30 17:42
本申请公开了一种语言模型得分的生成方法及装置,该方法包括:利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分,其中,表达记忆库存储了目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。可见,本申请实施例在生成目标文本的得分时,考虑了该目标文本所属领域中各个关键词的向量表达结果以及与各个关键词相关的各个关联词对应的向量表达结果,从而能够更准确地生成目标文本中各个词语的得分。

【技术实现步骤摘要】
一种语言模型得分的生成方法及装置
本申请涉及自然语言处理
,尤其涉及一种语言模型得分的生成方法及装置。
技术介绍
现有的语言模型包括Ngram语言模型和循环神经网络(RecurrentNeuralNetwork,RNN)语言模型,可以在文本预测、文本校对以及语音识别(比如对演讲、访谈、辩论等长语音数据进行的语音识别)等应用场景中,使用语言模型计算相关文本的各个词语的语言模型得分,也即各个词语的概率得分,用以确定该文本是否属于一段合理的自然语言。但是,现有的语言模型得分生成方法,仅仅考虑文本中的词语在一定范围内(比如该词语之前的2~4个词)的词语搭配关系,从而导致生成的语言模型得分不准确。
技术实现思路
本申请实施例的主要目的在于提供一种语言模型得分的生成方法及装置,能够提高文本中各个词语的得分的准确性。本申请实施例提供了一种语言模型得分的生成方法,包括:利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分;其中,所述表达记忆库存储了所述目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。可选的,所述第一向量表达结果包括:根据对应关键词生成的向量表达结果;和/或,根据对应关键词的周边词语生成的该对应关键词的向量表达结果,其中,该对应关键词以及该对应关键词的周边词语属于所述目标文本所属领域中的样本文本;所述第二向量表达结果包括:根据对应关联词生成的向量表达结果;和/或,根据对应关联词的周边词语生成的该对应关联词的向量表达结果,其中,该对应关联词以及该对应关联词的周边词语属于所述目标文本所属领域中的样本文本。可选的,所述利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分,包括:将所述目标文本中的每个词语作为目标词语;利用预先构建的语言模型生成所述目标词语的向量表达结果;根据所述目标词语的向量表达结果以及所述表达记忆库中存储的向量表达结果,生成所述目标词语的语言模型得分。可选的,按照下述方式构建所述表达记忆库:利用预先构建的关键词关联库,构建所述表达记忆库;其中,所述关键词关联库中存储了各个领域的多个关键词、以及分别与每个关键词对应的目标关联词集,所述目标关联词集中包括对应关键词的多个关联词。可选的,所述利用预先构建的关键词关联库,构建所述表达记忆库,包括:确定所述目标文本所属的领域;从所述关键词关联库中,筛选出所述领域内的各个关键词以及各个关键词分别对应的目标关联词集,形成一个关键词关联集;构建所述表达记忆库,使所述表达记忆库包括所述关键词关联集中的每一词语以及每一词语的向量表达结果。可选的,按照下述方式构建所述关键词关联库:获取大量的样本文本;对于每一样本文本,从该样本文本中挑选出该样本文本所属领域内的关键词,并使挑选出的每一关键词对应同一个初始关联词集,所述初始关联词集包括该样本文本中的各个非关键词;将不同样本文本中的相同关键词对应的各个初始关联词集进行合并,得到每一不同关键词唯一对应的一个目标关联词集;由各个不同的关键词以及每一关键词对应的目标关联词集,形成所述关键词关联库。可选的,按照下述方式构建所述关键词关联库:收集大量的样本文本;对于每一样本文本,从该样本文本中挑选出该样本文本所属领域内的关键词,并使挑选出的每一关键词对应同一个初始关联词集,所述初始关联词集包括该样本文本中的各个非关键词;将不同样本文本中的相同关键词对应的各个初始关联词集进行合并,得到每一不同关键词唯一对应的一个目标关联词集;剔除每一目标关联词集中的与对应关键词具有低关联性的非关键词;由各个不同的关键词以及经剔除操作后的每一关键词对应的目标关联词集,形成所述关键词关联库。可选的,所述剔除每一目标关联词集中的与对应关键词具有低关联性的非关键词,包括:对于每一目标关联词集,将该目标关联词集对应的关键词称为基准词,并将该目标关联词集中的每一非关键词分别称为待处理词;对于每一待处理词,根据所述待处理词对应的第一参数和第二参数,生成表征所述待处理词与所述基准词的相关程度的关联权重,所述第一参数为所述待处理词所属的目标关联词集的个数,所述第二参数为所述待处理词在相应文本中的出现次数,所述相应文本包括所述待处理词与所述基准词共同所属的各个样本文本;根据所述关联权重,剔除或保留该目标关联词集中的所述待处理词。本申请实施例还提供了一种语言模型得分的生成装置,包括:模型得分生成单元,用于利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分;其中,所述表达记忆库存储了所述目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。可选的,所述第一向量表达结果包括:根据对应关键词生成的向量表达结果;和/或,根据对应关键词的周边词语生成的该对应关键词的向量表达结果,其中,该对应关键词以及该对应关键词的周边词语属于所述目标文本所属领域中的样本文本;所述第二向量表达结果包括:根据对应关联词生成的向量表达结果;和/或,根据对应关联词的周边词语生成的该对应关联词的向量表达结果,其中,该对应关联词以及该对应关联词的周边词语属于所述目标文本所属领域中的样本文本。可选的,所述模型得分生成单元包括:目标词语获得子单元,用于将所述目标文本中的每个词语作为目标词语;表达结果生成子单元,用于利用预先构建的语言模型生成所述目标词语的向量表达结果;模型得分生成子单元,用于根据所述目标词语的向量表达结果以及所述表达记忆库中存储的向量表达结果,生成所述目标词语的语言模型得分。可选的,所述装置还包括:记忆库构建单元,用于利用预先构建的关键词关联库,构建所述表达记忆库;其中,所述关键词关联库中存储了各个领域的多个关键词、以及分别与每个关键词对应的目标关联词集,所述目标关联词集中包括对应关键词的多个关联词。可选的,所述记忆库构建单元包括:领域确定子单元,用于确定所述目标文本所属的领域;关联集形成子单元,用于从所述关键词关联库中,筛选出所述领域内的各个关键词以及各个关键词分别对应的目标关联词集,形成一个关键词关联集;记忆库构建子单元,用于构建所述表达记忆库,使所述表达记忆库包括所述关键词关联集中的每一词语以及每一词语的向量表达结果。可选的,所述装置还包括:样本文本获取单元,用于获取大量的样本文本;关联词集挑选单元,用于对于每一样本文本,从该样本文本中挑选出该样本文本所属领域内的关键词,并使挑选出的每一关键词对应同一个初始关联词集,所述初始关联词集包括该样本文本中的各个非关键词;关联词集获得单元,用于将不同样本文本中的相同关键词对应的各个初始关联词集进行合并,得到每一不同关键词唯一对应的一个目标关联词集;第一关联库形成单元,用于由各个不同的关键词以及每一关键词对应的目标关联词集,形成所述关键词关联库。可选的,所述装置还包括:样本文本获取单元,用于获取大量的样本文本;关联词集挑选单元,用于对于每一样本文本,从该样本文本中挑选出该样本文本所属领域内的关键词,并使挑选出的每一关键词对应同一个初始关联词集,所述初始关联词集包括该样本文本中的各个非关键词;关联词集获得单元,用于将不同样本文本中的相同关键词对应的各个初始关联词集进行合并,得到本文档来自技高网...

【技术保护点】
1.一种语言模型得分的生成方法,其特征在于,包括:利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分;其中,所述表达记忆库存储了所述目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。

【技术特征摘要】
1.一种语言模型得分的生成方法,其特征在于,包括:利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分;其中,所述表达记忆库存储了所述目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。2.根据权利要求1所述的方法,其特征在于,所述第一向量表达结果包括:根据对应关键词生成的向量表达结果;和/或,根据对应关键词的周边词语生成的该对应关键词的向量表达结果,其中,该对应关键词以及该对应关键词的周边词语属于所述目标文本所属领域中的样本文本;所述第二向量表达结果包括:根据对应关联词生成的向量表达结果;和/或,根据对应关联词的周边词语生成的该对应关联词的向量表达结果,其中,该对应关联词以及该对应关联词的周边词语属于所述目标文本所属领域中的样本文本。3.根据权利要求1所述的方法,其特征在于,所述利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分,包括:将所述目标文本中的每个词语作为目标词语;利用预先构建的语言模型生成所述目标词语的向量表达结果;根据所述目标词语的向量表达结果以及所述表达记忆库中存储的向量表达结果,生成所述目标词语的语言模型得分。4.根据权利要求1至3任一项所述的方法,其特征在于,按照下述方式构建所述表达记忆库:利用预先构建的关键词关联库,构建所述表达记忆库;其中,所述关键词关联库中存储了各个领域的多个关键词、以及分别与每个关键词对应的目标关联词集,所述目标关联词集中包括对应关键词的多个关联词。5.根据权利要求4所述的方法,其特征在于,所述利用预先构建的关键词关联库,构建所述表达记忆库,包括:确定所述目标文本所属的领域;从所述关键词关联库中,筛选出所述领域内的各个关键词以及各个关键词分别对应的目标关联词集,形成一个关键词关联集;构建所述表达记忆库,使所述表达记忆库包括所述关键词关联集中的每一词语以及每一词语的向量表达结果。6.根据权利要求4所述的方法,其特征在于,按照下述方式构建所述关键词关联库:获取大量的样本文本;对于每一样本文本,从该样本文本中挑选出该样本文本所属领域内的关键词,并使挑选出的每一关键词对应同一个初始关联词集,所述初始关联词集包括该样本文本中的各个非关键词;将不同样本文本中的相同关键词对应的各个初始关联词集进行合并,得到每一不同关键词唯一对应的一个目标关联词集;由各个不同的关键词以及每一关键词对应的目标关联词集,形成所述关键词关联库。7.根据权利要求4所述的方法,其特征在于,按照下述方式构建所述关键词关联库:收集大量的样本文本;对于每一样本文本,从该样本文本中挑选出该样本文本所属领域内的关键词,并使挑选出的每一关键词对应同一个初始关联词集,所述初始关联词集包括该样本文本中的各个非关键词;将不同样本文本中的相同关键词对应的各个初始关联词集进行合并,得到每一不同关键词唯一对应的一个目标关联词集;剔除每一目标关联词集中的与对应关键词具有低关联性的非关键词;由各个不同的关键词以及经剔除操作后的每一关键词对应的目标关联词集,形成所述关键词关联库。8.根据权利要求7所述的方法,其特征在于,所述剔除每一目标关联词集中的与对应关键词具有低关联性的非关键词,包括:对于每一目标关联词集,将该目标关联词集对应的关键词称为基准词,并将该目标关联词集中的每一非关键词分别称为待处理词;对于每一待处理词,根据所述待处理词对应的第一参数和第二参数,生成表征所述待处理词与所述基准词的相关程度的关联权重,所述第一参数为所述待处理词所属的目标关联词集的个数,所述第二参数为所述待处理词在相应文本中的出现次数,所述相应文本包括所述待处理词与所述基准词共同所属的各个样本文本;根据所述关联权重,剔除或保留该目标关联词集中的所述待处理词。9.一种语言模型得分的生成装置,其特征在于,包括:模型得分生成单元,用于利用预先构建的表达记忆库,生成目标文本中的每个词语的语言模型得分;其中,所述表达记忆库存储了所述目标文本所属领域中的各个关键词分别对应的第一向量表达结果、以及每一关键词的各个关联词分别对应的第二向量表达结果。10.根据权利要求9所述的装置,其特征在于,所述第一向量表达结果包括:根据对应关键词生成的向量表达结果;和/或,根据对应关键词的周边词语生成的...

【专利技术属性】
技术研发人员:张享高建清王智国胡国平胡郁刘庆峰
申请(专利权)人:安徽听见科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1