神经网络训练方法、语义相似度计算方法及语义检索系统技术方案

技术编号:33922643 阅读:13 留言:0更新日期:2022-06-25 21:15
本发明专利技术公开一种神经网络训练方法、语义相似度计算方法及语义检索系统。神经网络训练方法包括步骤:S1:对句子相似度进行标注;S2:将标注好的二个句子输入神经网络;S3:对二个句子的特征进行处理,计算损失函数;S4:根据损失函数的损失值,对神经网络进行训练。本发明专利技术采取的技术方案使用的神经网络训练方法得到的神经网络参数少,检索速度快,能够准确计算出语义相似度,从而能够获取文本的语义信息,从而提高了检索的准确率,适用于高并发、低延迟的需求场景。的需求场景。的需求场景。

【技术实现步骤摘要】
神经网络训练方法、语义相似度计算方法及语义检索系统


[0001]本专利技术涉及信息检索
,尤其涉及一种神经网络训练方法、语义相似度计算方法及语义检索系统。

技术介绍

[0002]自然语言处理(Nature Language processing,NLP)是计算机科学以及人工智能的一个重要研究方向。主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是一门集成语言学、计算机科学、数学于一体的学科。
[0003]在自然语言处理中,有很多场景需要对不同的文本之间进行语义的相似度匹配。因此,语义相似度计算是解决这类需求的技术方向之一,是文本查重、智能问答等应用的基础技术。语义相似度意在对于给定的两个文本,从语义的角度度量二者之间的相似性,通常会给出一个0到1之间的语义相似度分值,分值越高代表越相似。
[0004]现有的技术中,有的基于Word2Vec等静态词向量计算语义相似度,但这种静态词向量存在的主要技术缺陷是无法考虑一词多义的情况、分词错误等情况,从而导致计算结果的准确度受到很大的影响。
[0005]此外,自从bert模型出来之后,以BERT为代表的预训练语言模型在众多NLP任务中取得了惊人的效果,因此基于bert模型进行的文本语义相似度也进行有益的探索,基于bert模型进行的文本相似度虽然取得了明显的进步,但基于bert参数量巨大,导致模型预测速度慢,在很多的场景下,无法满足互联网高并发,低延时的需求。

技术实现思路

[0006]本专利技术为解决现有技术中存在的技术问题,提供一种神经网络训练方法,包括步骤:
[0007]S1:对二个句子相似度进行标注;
[0008]S2:将标注好的二个句子输入神经网络,得到句子中每个字的特征;
[0009]S3:对每个字的特征取均值,得到二个句子的特征S1、S2,计算损失函数;
[0010]S4:根据损失函数的损失值,对神经网络进行训练。
[0011]进一步地,步骤S1:对句子相似度进行标注为:sentenceA sentenceB Score。
[0012]进一步地,步骤S3中计算损失函数包括:
[0013]将S1和S2求余弦相似度,即sim=cos(S1,S2);
[0014]把1

5分的标签分别除以5,归一化到0至1之间,得到归一化的标签label;
[0015]根据sim和标签label计算损失函数。
[0016]进一步地,所述损失函数公式为:
[0017]Loss=|sim

label|
[0018]其中,sim=cos(S1,S2),为余弦相似度。
[0019]进一步地,所述神经网络结构包括线性网络单元、嵌入单元、特征抽取单元以及压
缩单元,其中:
[0020]线性网络单元用以将输入变量复制为三份作为输入,分别获取到句子的query、key以及value;
[0021]嵌入单元用以对输入的字、绝对位置以及所属段落编号进行编码,再进行处理,获得字向量;
[0022]特征抽取单元用以对词向量进行升维处理,经过transformer模组抽取特征,输出字向量的特征;
[0023]压缩单元用以对词向量的特征进行压缩。
[0024]进一步地,所述transformer为依次串联的多对transformer组构成,其中,每对transformer组由二层transformer构成,每组的transformer参数完全共享。
[0025]本专利技术还提供一种语义相似度计算方法,包括步骤:
[0026]接收输入的句子;
[0027]神经网络根据输入的句子,搜索关键句以及相关内容,分别进行特征抽取,计算语义相似度;
[0028]将语义相似度得分最高的前N条句子返回。
[0029]本专利技术还提供一种语义检索系统,包括采集模块、处理模块以及输出模块,其中:
[0030]采集模块用以接收输入的句子;
[0031]处理模块用以对输入的句子进行处理;
[0032]输出模块用以将处理模块的处理结果返回。
[0033]本专利技术还提供一种计算机可读存储介质,所述存储介质中存储有指令或者程序,所述指令或者程序由处理器加载并执行以实现所述的语义相似度计算方法。
[0034]本专利技术还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行所述的语义相似度计算方法。
[0035]本专利技术公开的方法和系统中所述模块,在实际应用中,即可以在一台目标服务器上部署多个模块,也可以每一模块独立部署在不同的目标服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群目标服务器上。
[0036]由此可见,本专利技术采取的技术方案使用的神经网络训练方法得到的神经网络参数少,检索速度快,能够准确计算出语义相似度,从而能够获取文本的语义信息,从而提高了检索的准确率,适用于高并发、低延迟的需求场景。
[0037]为了对本专利技术有更清楚全面的了解,下面结合附图,对本专利技术的具体实施方式进行详细描述。
附图说明
[0038]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本申请实施例的神经网络结构示意图。
具体实施方式
[0040]本申请针对现有技术的技术缺陷,公开一种神经网络训练方法,包括步骤:
[0041]S1:对二个句子相似度进行标注;
[0042]S2:将标注好的二个句子输入神经网络,得到句子中每个字的特征;
[0043]S3:对每个字的特征取均值,得到二个句子的特征S1、S2,计算损失函数;
[0044]S4:根据损失函数的损失值,对神经网络进行训练。
[0045]下面结合各种优选的实施方式进一步说明本申请的技术方案。
[0046]S1:对二个句子相似度进行标注;
[0047]此步骤的目的是把输入句子变成用于训练神经网络可以处理的句子格式。标注二个句子格式为:sentenceA sentenceB Score,即句子以及相似度的数值,输入两个句子和相似度标签,标签根据相似度由1,2,3,4,5分表示,分数越高越相似,比如以下几组句子,根据其意思相似度标注的相似度标签值:
[0048]今天天气很好,今天多好的天气啊5
[0049]今天天气很好今天天气晴朗4
[0050]今天天气很好今天天气不好1
[0051]S2:将标注好的二个句子输入神经网络,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络训练方法,其特征是,包括步骤:S1:对二个句子相似度进行标注;S2:将标注好的二个句子输入神经网络,得到句子中每个字的特征;S3:对每个字的特征取均值,得到二个句子的特征S1、S2,计算损失函数;S4:根据损失函数的损失值,对神经网络进行训练。2.如权利要求1所述的神经网络训练方法,其特征是,步骤S1:对句子相似度进行标注为:sentenceA sentenceB Score。3.如权利要求1所述的神经网络训练方法,其特征是,步骤S3中计算损失函数包括:将S1和S2求余弦相似度,即sim=cos(S1,S2);把1

5分的标签分别除以5,归一化到0至1之间,得到归一化的标签label;根据sim和标签label计算损失函数。4.如权利要求3所述的神经网络训练方法,其特征是,所述损失函数公式为:Loss=|sim

label|其中,sim=cos(S1,S2),cos为余弦相似度。5.如权利要求1所述的神经网络训练方法,其特征是,所述神经网络结构包括线性网络单元、嵌入单元、特征抽取单元以及压缩单元,其中:线性网络单元用以将输入变量复制为三份作为输入,分别获取到句子的query、key以及value;嵌入单元用以对输入的字、绝对位置以及所属段落编号进行编码...

【专利技术属性】
技术研发人员:曾祥云朱姬渊
申请(专利权)人:上海易康源医疗健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1