【技术实现步骤摘要】
语言模型预训练方法
本专利技术属于人工
,尤其是涉及一种基于混合字符及子词的改进BERT模型的语言模型预训练方法。
技术介绍
自然语言处理是人工智能领域的一个重要分支。预训练语言模型在实践中被证明具有相当突出的有效性。语言模型(LanguageModel)是一串词序列的概率分布。具体来说,语言模型是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。较为常用的语言预训练方法是基于BRRT模型的语言预训练,其包括如下步骤:1、准备带有上下句的文本语料;2、使用BPE(bytepieceencoding、即简单分词算法)将文本语料转化为整数序列的分词;3、掩盖/替换15%的分词;4、对被掩盖的分词进行预测,并同时预测该分词的上下句。这种预训练方法存在以下问题:1、其直接预测每个位置该出现的词,由于词表巨大导致各位置均出现高频词导致样本的不均衡;2、其基于分词后的序列建模,对于中文这种分词有歧义的语言不友好,且阻碍了中文在下游应用的迁移;3、建模句子对的关系中,上下句的负例构造具有随意性,对最后的训练效果造成随机性影响。因此,如何针对上述问题,对BERT模型进行改进,实现一种新型的语言模型预训练方法,是本领域技术人员需要研究的方向。
技术实现思路
为克服现有BRRT模型语言预训练存在的问题,本专利技术提供了一种语言模型预训练方法。其采用的技术方案如下:一种语言模型预训练方法,其包括如下步骤:S1:对模型中的语料按字、子词进行分词;S2:对S1生成的各分词随即抽取15%进行位置掩盖、并计算掩盖后的语义分布;S3:以独立的门控制单元对模型中的子词混合 ...
【技术保护点】
1.一种语言模型预训练方法,其特征在于,包括如下步骤:S1:对模型中的语料按字、子词进行分词;S2:对S1生成的各分词随即抽取15%进行位置掩盖、并计算掩盖后的语义分布;S3:以独立的门控制单元对模型中的子词混合进行控制;S4:对语义分布和掩盖词的预测进行同步训练。
【技术特征摘要】
1.一种语言模型预训练方法,其特征在于,包括如下步骤:S1:对模型中的语料按字、子词进行分词;S2:对S1生成的各分词随即抽取15%进行位置掩盖、并计算掩盖后的语义分布;S3:以独立的门控制单元对模型中的子词混合进行控制;S4:对语义分布和掩盖词的预测进行同步训练。2.如权利要求1所述语言模型预训练方法,其特征在于,所述步骤S2包括如下步骤:S21:初始化空的映射表;S22:从分词表当前位置反向扫描,直至由扫描位置处至当前位置为止构成的字符串出现在词表中;S23:找出该字符串对应的ID标号,对映射表中该ID出现的频次增加1;S24:对映射表中的各个ID标号按出现频次由高到低排序,截取排序后的前K个ID标号并分别记录这些ID标号的频次;S25:将S24所得...
【专利技术属性】
技术研发人员:陈瑶文,
申请(专利权)人:人立方智能科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。