一种新词的确定方法及装置制造方法及图纸

技术编号：25346050 阅读：20 留言：0更新日期：2020-08-21 17:05

本发明专利技术公开了一种新词的确定方法，其基于深度神经网络确定新词，包括如下步骤：a：基于N‑Gram算法以及待鉴定文本生成多个原始候选词；b：基于BERT模型对多个所述原始候选词进行训练，并确定多个向量化候选词；c：基于深度神经网络将多个向量化候选词输出成标记为｛y

全部详细技术资料下载

【技术实现步骤摘要】
一种新词的确定方法及装置
本专利技术属于计算机技术应用领域，具体地，涉及一种新词的确定方法及装置。
技术介绍
随着社会的不断进步，互联网在人们日常生活中的普及，人与人之间的沟通也不仅仅局限于面对面，而更多的是通过网络来实现有效的沟通，在这样的一个多元化快节奏发展的现代化社会中，每时每刻都在发生着大大小小的事情，而新词的产生是现代化发展所衍生的产物，其将人们带入到更为有效、有趣的沟通中，例如近些年来所出现的新词“囧态”、“葛优瘫”、“鸽了”、“老司机”等等，而这些新词所描绘的意义、场景往往会随着沟通中的人们的广泛应用而逐渐被广为接受。然而，作为一些第三方平台或系统，往往需要更加贴合于用户的使用习惯以及兴趣爱好，这样才能更好的为用户提供优质服务，而随着互联网的飞速发展，现在的新词更是层出不穷，甚至对于第三方平台或系统，往往会因为无法识别一些新词而给用户带来一些困扰及影响，而如何更好的与现代社会的新词出现接轨成为了目前一些商家亟待解决的技术问题，如何大量、精准的获取到近期出现的新词更是目前最为重要的技术问题。新词的发现一般是从自由度和凝固度角度考虑，前者具有比较丰富的上下文，后者还需要本身内部满足一定条件，词内部要比较稳固或者内部凝固程度较高，目前，并没有一种能够解决上述技术问题的技术方案，具体地，并没有一种新词的确定方法及装置。
技术实现思路
针对现有技术存在的技术缺陷，本专利技术的目的是提供一种新词的确定方法及装置，根据本专利技术的一个方面，提供了一种新词的确定方法，其基于深度神经网...

【技术保护点】
1.一种新词的确定方法，其基于深度神经网络确定新词，其特征在于，包括如下步骤：/na：基于N-Gram算法以及待鉴定文本生成多个原始候选词；/nb：基于BERT模型对多个所述原始候选词进行训练，并确定多个向量化候选词；/nc：基于深度神经网络将多个向量化候选词输出成标记为｛y

【技术特征摘要】
1.一种新词的确定方法，其基于深度神经网络确定新词，其特征在于，包括如下步骤：
a：基于N-Gram算法以及待鉴定文本生成多个原始候选词；
b：基于BERT模型对多个所述原始候选词进行训练，并确定多个向量化候选词；
c：基于深度神经网络将多个向量化候选词输出成标记为｛y1，y2｝的神经元，其中，
当y1为1，y2为0时，确定与所述向量化候选词相对应地原始候选词为词语，当y1为0，y2为1时，确定与所述向量化候选词相对应地原始候选词不为词语；
d：将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配，若不存在于数据库中，则确定一个或多个所述原始候选词为新词。

2.根据权利要求1所述的确定方法，其特征在于，在所述步骤a中，通过如下方式将文本内容确定为所述待鉴定文本：
字节流；
字符流；或者
词流。

3.根据权利要求1所述的确定方法，其特征在于，在所述步骤a中，基于所述N-Gram算法生成所述原始候选词通过如下方式确定：
a1：将待鉴定文本进行大小为N的滑动窗口操作，形成长度为N的字符串,每个字符串称为gram，其中，1〈N〈M，所述M为所述原始候选词的字符串个数;
a2：将长度为N所形成的所有字符串确定为原始候选词。

4.根据权利要求1所述的确定方法，其特征在于，在所述步骤b中，通过大量的文本并基于字、字的语义信息、字的位置信息确定BERT模型。

5.根据权利要求1所述的确定方法，其特征在于，在所述步骤b中，所述向量化候选词为768维的向量。

6.根据权利要求1所述的确定方法，其特征在于，在所述步骤c中，通过如下方式确定深度神经网络模型：将正例特征向量相对应的词语以及负例特征向量相对应的非词语按照相同比例的...

【专利技术属性】
技术研发人员：刘凡平，沈振雷，陈慧，
申请(专利权)人：上海二三四五网络科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人