一种基于多数据源的营销知识文本匹配方法组成比例

技术编号：33344795 阅读：14 留言：0更新日期：2022-05-08 09:37

本发明专利技术提供了文本匹配技术领域的一种基于多数据源的营销知识文本匹配方法，包括如下步骤：步骤S10、获取大量包括三元组数据以及文本数据的营销知识文本；步骤S20、对各所述营销知识文本进行预处理，进而构建文本数据集；步骤S30、创建一文本匹配模型，利用所述文本数据集对文本匹配模型进行训练以及调优；步骤S40、评估所述文本匹配模型的性能；步骤S50、利用所述文本匹配模型对待匹配文本数据进行相似匹配。本发明专利技术的优点在于：极大的提升了文本匹配的准确度以及泛化能力。的准确度以及泛化能力。的准确度以及泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多数据源的营销知识文本匹配方法

[0001]本专利技术涉及文本匹配
，特别指一种基于多数据源的营销知识文本匹配方法。

技术介绍

[0002]随着互联网信息技术的快速发展，出现了海量的文本数据，这些文本数据通常包含着有用的相似信息，因此需要检索文本数据之间相似度，即进行文本相似匹配。
[0003]文本相似匹配在自然语言处理领域中占据着核心的地位,匹配检索信息、智能问答、机器翻译、对话系统、释义识别等都可以归纳为文本相似匹配问题,其本质都是匹配文本数据之间的相似程度，提取里面的相似信息，并将这些相似信息应用在搜索引擎、问答系统、文本摘要等方面上。
[0004]传统的文本相似匹配算法主要以人工提取特征为主，借助人工对文本数据之间的词、字、句提取的特征进行分析，通常包括TF
‑
IDF和Jaccard距离等。TF
‑
IDF是以词频为特征来表达词汇在文本数据中的重要性，Jaccard距离是通过比较文本数据中重复单词的多少来衡量相似性。
[0005]然而，传统的文本相似匹配算法存在如下问题：
[0006]1、语义理解不深入：对于文本之间的语义理解欠缺思考，仅考虑文本的组织与构成信息，文本之间的匹配能力具有一定的瓶颈，难以正确的匹配两段文本的语义，匹配更多是从字词本身来考虑，而忽略了更深层次的语义信息，忽略了文本间蕴含的潜在语义。
[0007]2、一词多义问题：由于同样的一个词或句子，可以表达多种语义信息，很多词在不同语境下具有一词多义的特点，...

【技术保护点】

【技术特征摘要】
1.一种基于多数据源的营销知识文本匹配方法，其特征在于：包括如下步骤：步骤S10、获取大量包括三元组数据以及文本数据的营销知识文本；步骤S20、对各所述营销知识文本进行预处理，进而构建文本数据集；步骤S30、创建一文本匹配模型，利用所述文本数据集对文本匹配模型进行训练以及调优；步骤S40、评估所述文本匹配模型的性能；步骤S50、利用所述文本匹配模型对待匹配文本数据进行相似匹配。2.如权利要求1所述的一种基于多数据源的营销知识文本匹配方法，其特征在于：所述步骤S10具体为：从图数据库中获取大量的营销知识的三元组数据，提取所述三元组数据中的实体词和关系词并进行拼接；从关系型数据库中获取大量的营销知识的文本数据；合并各所述三元组数据以及文本数据得到营销知识文本。3.如权利要求1所述的一种基于多数据源的营销知识文本匹配方法，其特征在于：所述步骤S20具体包括：步骤S21、去除各所述营销知识文本的噪声数据；步骤S22、对各所述营销知识文本进行去重处理；步骤S23、利用分词工具对各所述营销知识文本进行分词操作得到若干个词组，基于预设的停用词表去除所述词组中的停用词；步骤S24、将各所述词组作为正样本，并为各所述正样本选取预设数量个领域不同的词组作为负样本，进而构建文本数据集。4.如权利要求3所述的一种基于多数据源的营销知识文本匹配方法，其特征在于：所述步骤S21中，所述噪声数据至少包括URL、图片、表情、ID、特殊符号以及请求时间。5.如权利要求1所述的一种基于多数据源的营销知识文本匹配方法，其特征在于：所述步骤S30中，所述文本匹配模型包括一向量化模块、一全局相关性聚合模块以及一输出模块；所述全局相关性聚合模块的输入端与向量化模块连接，输出端与输出模块连接。6.如权利要求5所述的一种基于多数据源的营销知识文本匹配方法，其特征在于：所述向量化模块用于对三元组数据以及文本数据进行向量化；所述对三元组数据进行向量化具体为：利用BERT预训练模型对三元组数据的每一元数据进行向量化处理，得到每一元数据的第一Word Embe...

【专利技术属性】
技术研发人员：焦洪林，陆向东，朱坚，赵庆勇，
申请(专利权)人：福建新大陆软件工程有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人