文本处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：33032691 阅读：9 留言：0更新日期：2022-04-15 09:09

本公开提供了一种文本处理方法、装置、电子设备和存储介质，涉及数据处理技术领域，尤其涉及深度学习技术领域和语义匹配技术领域，该方法包括：获取待查询的第一文本；对第一文本进行特征处理，得到第一特征向量；将第一特征向量与多个第二特征向量进行对比，确定与第一特征向量匹配的目标特征向量；基于目标特征向量确定与第一文本匹配的查询结果。容易注意到的是，第一特征向量是用户侧的特征，第二特征向量是查询侧的特征向量，本公开可以将查询侧的特征和内容侧的特征同时进行处理，可以进行全局处理，从而解决了难以同时保证语义匹配精度和处理效率的技术问题，进而达到了提高查询结果的精确度。询结果的精确度。询结果的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、电子设备和存储介质

[0001]本公开涉及数据处理
，尤其涉及深度学习
和语义匹配
，具体涉及一种文本处理方法、装置、电子设备和存储介质。

技术介绍

[0002]在NLP(Natural Language Processing，自然语言处理)的诸多应用中，有很多应用都有在语义上衡量文本相似度的需求，我们将这类需求统称为语义匹配，此外，语义匹配的应用范围非常广，例如在搜索、问答系统、电商等。但目前基于如何获得较好的语义匹配效果的技术问题，尚未有解决方案。

技术实现思路

[0003]本公开提供了一种文本处理方法、装置、电子设备和存储介质。
[0004]根据本公开的第一方面，提供了一种文本处理方法，包括：获取待查询的第一文本；对第一文本进行特征处理，得到第一特征向量；将第一特征向量与多个第二特征向量进行对比，确定与第一特征向量匹配的目标特征向量，其中，多个第二特征向量通过对目标卡片的至少两组特征向量进行特征交叉计算而得到；基于目标特征向量确定与第一文本匹配的查询结果。
[0005]根据本公开的第二方面，提供了一种文本处理装置，包括：获取模块，用于获取待查询的第一文本；特征处理模块，用于对第一文本进行特征处理，得到第一特征向量；对比模块，用于将第一特征向量与多个第二特征向量进行对比，确定与第一特征向量匹配的目标特征向量，其中，多个第二特征向量通过对目标卡片的至少两组特征向量进行特征交叉计算而得到；确定模块，用于基于目标特征向量确定与第一文本匹配的查询结果。...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其中，包括：获取待查询的第一文本；对所述第一文本进行特征处理，得到第一特征向量；将所述第一特征向量与多个第二特征向量进行对比，确定与所述第一特征向量匹配的目标特征向量，其中，所述多个第二特征向量通过对目标卡片的至少两组特征向量进行特征交叉计算而得到；基于所述目标特征向量确定与所述第一文本匹配的查询结果。2.根据权利要求1所述的方法，其中，对所述第一文本进行特征处理，得到第一特征向量，包括：对所述第一文本进行特征处理，得到多个第三特征向量，其中，所述多个第三特征向量的编码方式不同；对所述多个第三特征向量进行集成处理，得到所述第一特征向量。3.根据权利要求2所述的方法，其中，对所述第一文本进行特征处理，得到多个第三特征向量，其中，所述多个第三特征向量的编码方式不同，包括：利用第一模型对所述第一文本进行特征编码，得到所述多个第三特征向量，其中，所述第一模型包括多个特征编码器，所述多个特征编码器中的每个特征编码器编码方式不同。4.根据权利要求1所述的方法，其中，所述方法还包括：获取至少一个目标卡片，其中，所述目标卡片至少包括标识信息和文本信息，所述标识信息用于描述所述目标卡片的类别，所述文本信息用于描述所述目标卡片的内容；至少对所述标识信息和所述文本信息分别进行特征提取，得到所述目标卡片的至少两组特征向量；对所述目标卡片的至少两组特征向量进行特征交叉计算，并基于计算结果得到所述多个第二特征向量。5.根据权利要求4所述的方法，其中，对所述目标卡片的至少两组特征向量进行特征交叉，并基于计算结果得到所述多个第二特征向量，包括：利用多个第二模型对至少两组特征向量进行特征交叉，得到多个输出结果，其中，所述多个输出结果与所述多个第二模型对应；获取所述多个输出结果对应的多个目标权重值；基于门控函数和所述多个目标权重值确定所述多个输出结果中的目标输出结果；基于所述目标输出结果确定所述多个第二特征向量。6.根据权利要求1所述的方法，其中，基于所述目标特征向量确定与所述第一文本匹配的查询结果，包括：利用第三模...

【专利技术属性】
技术研发人员：余晓峰，郑博文，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人