文本处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33032691 阅读:9 留言:0更新日期:2022-04-15 09:09
本公开提供了一种文本处理方法、装置、电子设备和存储介质,涉及数据处理技术领域,尤其涉及深度学习技术领域和语义匹配技术领域,该方法包括:获取待查询的第一文本;对第一文本进行特征处理,得到第一特征向量;将第一特征向量与多个第二特征向量进行对比,确定与第一特征向量匹配的目标特征向量;基于目标特征向量确定与第一文本匹配的查询结果。容易注意到的是,第一特征向量是用户侧的特征,第二特征向量是查询侧的特征向量,本公开可以将查询侧的特征和内容侧的特征同时进行处理,可以进行全局处理,从而解决了难以同时保证语义匹配精度和处理效率的技术问题,进而达到了提高查询结果的精确度。询结果的精确度。询结果的精确度。

【技术实现步骤摘要】
文本处理方法、装置、电子设备和存储介质


[0001]本公开涉及数据处理
,尤其涉及深度学习
和语义匹配
,具体涉及一种文本处理方法、装置、电子设备和存储介质。

技术介绍

[0002]在NLP(Natural Language Processing,自然语言处理)的诸多应用中,有很多应用都有在语义上衡量文本相似度的需求,我们将这类需求统称为语义匹配,此外,语义匹配的应用范围非常广,例如在搜索、问答系统、电商等。但目前基于如何获得较好的语义匹配效果的技术问题,尚未有解决方案。

技术实现思路

[0003]本公开提供了一种文本处理方法、装置、电子设备和存储介质。
[0004]根据本公开的第一方面,提供了一种文本处理方法,包括:获取待查询的第一文本;对第一文本进行特征处理,得到第一特征向量;将第一特征向量与多个第二特征向量进行对比,确定与第一特征向量匹配的目标特征向量,其中,多个第二特征向量通过对目标卡片的至少两组特征向量进行特征交叉计算而得到;基于目标特征向量确定与第一文本匹配的查询结果。
[0005]根据本公开的第二方面,提供了一种文本处理装置,包括:获取模块,用于获取待查询的第一文本;特征处理模块,用于对第一文本进行特征处理,得到第一特征向量;对比模块,用于将第一特征向量与多个第二特征向量进行对比,确定与第一特征向量匹配的目标特征向量,其中,多个第二特征向量通过对目标卡片的至少两组特征向量进行特征交叉计算而得到;确定模块,用于基于目标特征向量确定与第一文本匹配的查询结果。
[0006]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提出的文本处理方法。
[0007]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提出的文本处理方法。
[0008]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行本公开提出的文本处理方法。
[0009]在本公开的实施例中,提供了一种可以用于语义匹配的文本处理方法、装置、电子设备和存储介质。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开实施例的一种文本处理方法的流程图;
[0013]图2是卡片信息在终端的显示界面上的示意图;
[0014]图3是根据本公开优选实施例的一种文本处理方法的流程图;
[0015]图4是根据本公开实施例的一种文本处理装置的结构示意图;
[0016]图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0019]在相关技术的语义匹配技术中,通常采用以下三种方案解决:
[0020]方案一:采用传统的文本匹配技术,例如TF

IDF(Term Frequency

Inverse Document Frequency)、BM25(Best Matching 25)、Jaccord、SIMHash等算法,其中,BM25算法通过网络文本字段对查询字段的覆盖程度来计算两者间的匹配得分,得分越高的网页与查询的匹配度更好。上述传统的文本匹配技术,主要解决词汇层面的匹配问题,或者说词汇层面的相似度问题。但上述传统的文本匹配技术只局限于“字面”程度上的匹配,得到的匹配结果并不理想,例如,“的士”和“出租车”虽然字面上不相似,但实际为同一种交通工具;“苹果”在不同的语境下表示不同的东西,或为水果或为公司;“机器学习”和“学习机器”虽然词汇完全重合,但表达的意思不同;“秦始皇打Dota”,这句话虽从词法和句法上看均没问题,但结合知识看这句话是不对的。
[0021]方案二:采用语义分析技术(Latent Sementic Analysis,简称LSA)中无监督的主题模型进行语义匹配,将语句映射到等长的低维连续空间,然后在此隐式的潜在语义空间上进行相似度计算,例如,PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析)、LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)等高级概率模型。但方案二所提供的方式本质上是基于共现信息的训练,所达到的技术效果不能取代传统的文本匹配技术,只能作为传统文本匹配技术的补充。
[0022]方案三:采用深度语义匹配技术,包括:基于表示类型的模型(Representation

based),通过提取文本整体语义再进行匹配,双塔共享参数,将两文本映射到同一空间,才具有匹配意义,即在表整层进行编码,匹配层进行交互计算,例如Siamese结构;基于交互类型的模型(Interaction

based),交互型模型摒弃后匹配的思路,在输入层就进行词语间的匹配,并将匹配的结果作为灰度图进行后续的建模,即交互层由两文本词与词构成交互矩
阵,表征层负责对交互矩阵进行抽象表征。但上述基于表示类型的模型虽然可以对文本预处理,构建索引,大幅度降低在线计算的耗时,但容易失去语义焦点,难以衡量词的上下文的重要性,造成语义漂移,而基于交互的模型虽然可以更好的把握语义交点,对上下文的重要性进行更好的建模,但容易忽视句法、句间对照等全局信息,无法由局部匹配信息刻画全局匹配信息。总的来说基于表示类型的模型处理效率更高,但语义匹配精度较低,基于交互类型的语义匹配精度较高,但由于建模更加细致,增加了大量的计算成本,导致处理效率较低。因此,相关技术中存在难以同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其中,包括:获取待查询的第一文本;对所述第一文本进行特征处理,得到第一特征向量;将所述第一特征向量与多个第二特征向量进行对比,确定与所述第一特征向量匹配的目标特征向量,其中,所述多个第二特征向量通过对目标卡片的至少两组特征向量进行特征交叉计算而得到;基于所述目标特征向量确定与所述第一文本匹配的查询结果。2.根据权利要求1所述的方法,其中,对所述第一文本进行特征处理,得到第一特征向量,包括:对所述第一文本进行特征处理,得到多个第三特征向量,其中,所述多个第三特征向量的编码方式不同;对所述多个第三特征向量进行集成处理,得到所述第一特征向量。3.根据权利要求2所述的方法,其中,对所述第一文本进行特征处理,得到多个第三特征向量,其中,所述多个第三特征向量的编码方式不同,包括:利用第一模型对所述第一文本进行特征编码,得到所述多个第三特征向量,其中,所述第一模型包括多个特征编码器,所述多个特征编码器中的每个特征编码器编码方式不同。4.根据权利要求1所述的方法,其中,所述方法还包括:获取至少一个目标卡片,其中,所述目标卡片至少包括标识信息和文本信息,所述标识信息用于描述所述目标卡片的类别,所述文本信息用于描述所述目标卡片的内容;至少对所述标识信息和所述文本信息分别进行特征提取,得到所述目标卡片的至少两组特征向量;对所述目标卡片的至少两组特征向量进行特征交叉计算,并基于计算结果得到所述多个第二特征向量。5.根据权利要求4所述的方法,其中,对所述目标卡片的至少两组特征向量进行特征交叉,并基于计算结果得到所述多个第二特征向量,包括:利用多个第二模型对至少两组特征向量进行特征交叉,得到多个输出结果,其中,所述多个输出结果与所述多个第二模型对应;获取所述多个输出结果对应的多个目标权重值;基于门控函数和所述多个目标权重值确定所述多个输出结果中的目标输出结果;基于所述目标输出结果确定所述多个第二特征向量。6.根据权利要求1所述的方法,其中,基于所述目标特征向量确定与所述第一文本匹配的查询结果,包括:利用第三模...

【专利技术属性】
技术研发人员:余晓峰郑博文
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1