一种新词的确定方法及装置制造方法及图纸

技术编号:25346050 阅读:20 留言:0更新日期:2020-08-21 17:05
本发明专利技术公开了一种新词的确定方法,其基于深度神经网络确定新词,包括如下步骤:a:基于N‑Gram算法以及待鉴定文本生成多个原始候选词;b:基于BERT模型对多个所述原始候选词进行训练,并确定多个向量化候选词;c:基于深度神经网络将多个向量化候选词输出成标记为{y

【技术实现步骤摘要】
一种新词的确定方法及装置
本专利技术属于计算机技术应用领域,具体地,涉及一种新词的确定方法及装置。
技术介绍
随着社会的不断进步,互联网在人们日常生活中的普及,人与人之间的沟通也不仅仅局限于面对面,而更多的是通过网络来实现有效的沟通,在这样的一个多元化快节奏发展的现代化社会中,每时每刻都在发生着大大小小的事情,而新词的产生是现代化发展所衍生的产物,其将人们带入到更为有效、有趣的沟通中,例如近些年来所出现的新词“囧态”、“葛优瘫”、“鸽了”、“老司机”等等,而这些新词所描绘的意义、场景往往会随着沟通中的人们的广泛应用而逐渐被广为接受。然而,作为一些第三方平台或系统,往往需要更加贴合于用户的使用习惯以及兴趣爱好,这样才能更好的为用户提供优质服务,而随着互联网的飞速发展,现在的新词更是层出不穷,甚至对于第三方平台或系统,往往会因为无法识别一些新词而给用户带来一些困扰及影响,而如何更好的与现代社会的新词出现接轨成为了目前一些商家亟待解决的技术问题,如何大量、精准的获取到近期出现的新词更是目前最为重要的技术问题。新词的发现一般是从自由度和凝固度角度考虑,前者具有比较丰富的上下文,后者还需要本身内部满足一定条件,词内部要比较稳固或者内部凝固程度较高,目前,并没有一种能够解决上述技术问题的技术方案,具体地,并没有一种新词的确定方法及装置。
技术实现思路
针对现有技术存在的技术缺陷,本专利技术的目的是提供一种新词的确定方法及装置,根据本专利技术的一个方面,提供了一种新词的确定方法,其基于深度神经网络确定新词,包括如下步骤:a:基于N-Gram算法以及待鉴定文本生成多个原始候选词;b:基于BERT模型对多个所述原始候选词进行训练,并确定多个向量化候选词;c:基于深度神经网络将多个向量化候选词输出成标记为{y1,y2}的神经元,其中,当y1为1,y2为0时,确定与所述向量化候选词相对应地原始候选词为词语,当y1为0,y2为1时,确定与所述向量化候选词相对应地原始候选词不为词语;d:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,若不存在于数据库中,则确定一个或多个所述原始候选词为新词。优选地,在所述步骤a中,通过如下方式将文本内容确定为所述待鉴定文本:-字节流;-字符流;或者-词流。优选地,在所述步骤a中,基于所述N-Gram算法生成所述原始候选词通过如下方式确定:a1:将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串,每个字符串称为gram,其中,1〈N〈M,所述M为所述原始候选词的字符串个数;a2:将长度为N所形成的所有字符串确定为原始候选词。优选地,在所述步骤b中,通过大量的文本并基于字、字的语义信息、字的位置信息确定BERT模型。优选地,在所述步骤b中,所述向量化候选词为768维的向量。优选地,在所述步骤c中,通过如下方式确定深度神经网络模型:将正例特征向量相对应的词语以及负例特征向量相对应的非词语按照相同比例的数据量对深度神经网络模型进行训练,并通过反向传播算法调节模型参数使得所述深度神经网络模型具备词语判别的能力,其中,所述正例特征向量与标记为{1,0}的神经元相对应,所述负例特征向量与标记为{0,1}的神经元相对应。优选地,所述反向传播算法调节模型参数通过如下方式确定:;其中,表示新的权重,表示上一轮迭代中的权重,表示学习速率,表示反向传播的误差调整大小。优选地,在所述步骤c中,将多个向量化候选词进行输出通过如下方式:,其中,是预测的输出值,是期望的输出,L是指交叉熵损失函数值loss。优选地,所述数据库为标准词库。根据本专利技术的另一个方面,提供了一种新词的确定装置,其采用所述的确定方法并基于深度神经网络确定新词,包括:第一处理装置:基于N-Gram算法以及待鉴定文本生成多个原始候选词;第一确定装置:基于BERT模型对多个所述原始候选词进行训练,并确定多个向量化候选词;第二处理装置:基于深度神经网络将多个向量化候选词输出成标记为{y1,y2}的神经元,第二确定装置:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,若不存在于数据库中,则确定一个或多个所述原始候选词为新词。优选地,所述第一处理装置包括:第三处理装置:将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串;第三确定装置:将长度为N所形成的所有字符串确定为原始候选词。本专利技术公开了一种新词的确定方法,其基于深度神经网络确定新词,包括如下步骤:a:基于N-Gram算法以及待鉴定文本生成多个原始候选词;b:基于BERT模型对多个所述原始候选词进行训练,并确定多个向量化候选词;c:基于深度神经网络将多个向量化候选词输出成标记为{y1,y2}的神经元,其中,当y1为1,y2为0时,确定与所述向量化候选词相对应地原始候选词为词语,当y1为0,y2为1时,确定与所述向量化候选词相对应地原始候选词不为词语;d:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,若不存在于数据库中,则确定一个或多个所述原始候选词为新词。本专利技术结合N-Gram算法、BERT模型对文本中的词语进行确定以及向量化,并针对性的采用创新式的深度神经网络输出基于判断标准的神经元,最后将确定为词语的候选词与数据库中所有的词语进行匹配,若没有这样的词语,则所述候选词即为新词,本专利技术全程经过计算机大数据智能运算,基于搜索目标、范围可大量确定当前社会中出现的新词,拓展输入法词库,本专利技术结构简单、使用方便、实用性强、具有极高的商业价值。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出了本专利技术的具体实施方式的,一种新词的确定方法的具体流程示意图;图2示出了本专利技术的第一实施例的,一种基于N-Gram算法以及待鉴定文本生成多个原始候选词的具体流程示意图;图3示出了本专利技术的另一具体实施方式的,一种新词的确定装置的模块连接示意图;以及图4示出了本专利技术的第二实施例的,一种基于深度神经网络确定神经元的示意图。具体实施方式为了更好的使本专利技术的技术方案清晰地表示出来,下面结合附图对本专利技术作进一步说明。图1示出了本专利技术的具体实施方式的,一种新词的确定方法的具体流程示意图,本专利技术将通过图1以及图2来对新词的确定方法的技术实施方案作进一步地详细的描述,本专利技术结合N-Gram算法、BERT模型对文本中的词语进行确定以及向量化,并基于深度神经网络确定新词,具体地,包括如下步骤:首先,进入步骤S101,基于N-Gram算法以及待鉴定文本生成多个原始候选词,本领域技术人员理解,N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用本文档来自技高网...

【技术保护点】
1.一种新词的确定方法,其基于深度神经网络确定新词,其特征在于,包括如下步骤:/na:基于N-Gram算法以及待鉴定文本生成多个原始候选词;/nb:基于BERT模型对多个所述原始候选词进行训练,并确定多个向量化候选词;/nc:基于深度神经网络将多个向量化候选词输出成标记为{y

【技术特征摘要】
1.一种新词的确定方法,其基于深度神经网络确定新词,其特征在于,包括如下步骤:
a:基于N-Gram算法以及待鉴定文本生成多个原始候选词;
b:基于BERT模型对多个所述原始候选词进行训练,并确定多个向量化候选词;
c:基于深度神经网络将多个向量化候选词输出成标记为{y1,y2}的神经元,其中,
当y1为1,y2为0时,确定与所述向量化候选词相对应地原始候选词为词语,当y1为0,y2为1时,确定与所述向量化候选词相对应地原始候选词不为词语;
d:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,若不存在于数据库中,则确定一个或多个所述原始候选词为新词。


2.根据权利要求1所述的确定方法,其特征在于,在所述步骤a中,通过如下方式将文本内容确定为所述待鉴定文本:
字节流;
字符流;或者
词流。


3.根据权利要求1所述的确定方法,其特征在于,在所述步骤a中,基于所述N-Gram算法生成所述原始候选词通过如下方式确定:
a1:将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串,每个字符串称为gram,其中,1〈N〈M,所述M为所述原始候选词的字符串个数;
a2:将长度为N所形成的所有字符串确定为原始候选词。


4.根据权利要求1所述的确定方法,其特征在于,在所述步骤b中,通过大量的文本并基于字、字的语义信息、字的位置信息确定BERT模型。


5.根据权利要求1所述的确定方法,其特征在于,在所述步骤b中,所述向量化候选词为768维的向量。


6.根据权利要求1所述的确定方法,其特征在于,在所述步骤c中,通过如下方式确定深度神经网络模型:将正例特征向量相对应的词语以及负例特征向量相对应的非词语按照相同比例的...

【专利技术属性】
技术研发人员:刘凡平沈振雷陈慧
申请(专利权)人:上海二三四五网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1