一种基于多数据源的营销知识文本匹配方法组成比例

技术编号:33344795 阅读:14 留言:0更新日期:2022-05-08 09:37
本发明专利技术提供了文本匹配技术领域的一种基于多数据源的营销知识文本匹配方法,包括如下步骤:步骤S10、获取大量包括三元组数据以及文本数据的营销知识文本;步骤S20、对各所述营销知识文本进行预处理,进而构建文本数据集;步骤S30、创建一文本匹配模型,利用所述文本数据集对文本匹配模型进行训练以及调优;步骤S40、评估所述文本匹配模型的性能;步骤S50、利用所述文本匹配模型对待匹配文本数据进行相似匹配。本发明专利技术的优点在于:极大的提升了文本匹配的准确度以及泛化能力。的准确度以及泛化能力。的准确度以及泛化能力。

【技术实现步骤摘要】
一种基于多数据源的营销知识文本匹配方法


[0001]本专利技术涉及文本匹配
,特别指一种基于多数据源的营销知识文本匹配方法。

技术介绍

[0002]随着互联网信息技术的快速发展,出现了海量的文本数据,这些文本数据通常包含着有用的相似信息,因此需要检索文本数据之间相似度,即进行文本相似匹配。
[0003]文本相似匹配在自然语言处理领域中占据着核心的地位,匹配检索信息、智能问答、机器翻译、对话系统、释义识别等都可以归纳为文本相似匹配问题,其本质都是匹配文本数据之间的相似程度,提取里面的相似信息,并将这些相似信息应用在搜索引擎、问答系统、文本摘要等方面上。
[0004]传统的文本相似匹配算法主要以人工提取特征为主,借助人工对文本数据之间的词、字、句提取的特征进行分析,通常包括TF

IDF和Jaccard距离等。TF

IDF是以词频为特征来表达词汇在文本数据中的重要性,Jaccard距离是通过比较文本数据中重复单词的多少来衡量相似性。
[0005]然而,传统的文本相似匹配算法存在如下问题:
[0006]1、语义理解不深入:对于文本之间的语义理解欠缺思考,仅考虑文本的组织与构成信息,文本之间的匹配能力具有一定的瓶颈,难以正确的匹配两段文本的语义,匹配更多是从字词本身来考虑,而忽略了更深层次的语义信息,忽略了文本间蕴含的潜在语义。
[0007]2、一词多义问题:由于同样的一个词或句子,可以表达多种语义信息,很多词在不同语境下具有一词多义的特点,传统文本相似匹配算法难以区分。
[0008]3、文本的结构性问题:一个短语可以由多个词语按照一定的结构组成,即使文本词语相同,不同结构的信息,也会产生不同的语义,如“机器学习”和“学习机器”,虽然词语都是一样的,但是倒置一下顺序语义就完全不同,匹配程度也完全不一致。
[0009]4、长文本的层次性:由于文本是以层次化方式组成的,即由文字组成词语,词语组成短语,短语组成句子,句子组成段落,以层次化方式将低级信息逐渐构建成高级信息,而传统的文本相似匹配算法忽视了这种不同层次之间的匹配信息。
[0010]因此,如何提供一种基于多数据源的营销知识文本匹配方法,实现提升文本匹配的准确度以及泛化能力,成为一个亟待解决的技术问题。

技术实现思路

[0011]本专利技术要解决的技术问题,在于提供一种基于多数据源的营销知识文本匹配方法,实现提升文本匹配的准确度以及泛化能力。
[0012]本专利技术是这样实现的:一种基于多数据源的营销知识文本匹配方法,包括如下步骤:
[0013]步骤S10、获取大量包括三元组数据以及文本数据的营销知识文本;
[0014]步骤S20、对各所述营销知识文本进行预处理,进而构建文本数据集;
[0015]步骤S30、创建一文本匹配模型,利用所述文本数据集对文本匹配模型进行训练以及调优;
[0016]步骤S40、评估所述文本匹配模型的性能;
[0017]步骤S50、利用所述文本匹配模型对待匹配文本数据进行相似匹配。
[0018]进一步地,所述步骤S10具体为:
[0019]从图数据库中获取大量的营销知识的三元组数据,提取所述三元组数据中的实体词和关系词并进行拼接;
[0020]从关系型数据库中获取大量的营销知识的文本数据;
[0021]合并各所述三元组数据以及文本数据得到营销知识文本。
[0022]进一步地,所述步骤S20具体包括:
[0023]步骤S21、去除各所述营销知识文本的噪声数据;
[0024]步骤S22、对各所述营销知识文本进行去重处理;
[0025]步骤S23、利用分词工具对各所述营销知识文本进行分词操作得到若干个词组,基于预设的停用词表去除所述词组中的停用词;
[0026]步骤S24、将各所述词组作为正样本,并为各所述正样本选取预设数量个领域不同的词组作为负样本,进而构建文本数据集。
[0027]进一步地,所述步骤S21中,所述噪声数据至少包括URL、图片、表情、ID、特殊符号以及请求时间。
[0028]进一步地,所述步骤S30中,所述文本匹配模型包括一向量化模块、一全局相关性聚合模块以及一输出模块;所述全局相关性聚合模块的输入端与向量化模块连接,输出端与输出模块连接。
[0029]进一步地,所述向量化模块用于对三元组数据以及文本数据进行向量化;
[0030]所述对三元组数据进行向量化具体为:
[0031]利用BERT预训练模型对三元组数据的每一元数据进行向量化处理,得到每一元数据的第一Word Embedding;
[0032]创建一参数矩阵,利用所述参数矩阵将各第一Word Embedding映射到指定的文本长度,得到第二Word Embedding;
[0033]利用softmax函数重新量化所述第二Word Embedding的权重,得到第三Word Embedding;
[0034]将所述第一Word Embedding与第三Word Embedding进行对比融合后,经过池化操作得到三元组向量,完成三元组数据的向量化;
[0035]所述对文本数据进行向量化具体为:
[0036]基于字粒度,利用BERT预训练模型将所述文本数据转换为BERT Embedding;
[0037]基于词粒度,利用Word2Vec模型将所述文本数据转换为第四Word Embedding;
[0038]结合平均池化以及最大池化对所述BERT Embedding以及第四Word Embedding进行融合,得到文本数据向量,完成文本数据的向量化。
[0039]进一步地,所述全局相关性聚合模块采用Bi

LSTM网络,学习匹配所述向量化模块输出的向量序列与真实匹配度之间的映射关系;
[0040]所述Bi

LSTM网络选择交叉熵作为损失函数,并通过反向传播算法进行训练。
[0041]进一步地,所述输出模块用于通过sigmoid函数输出二分类结果。
[0042]进一步地,所述步骤S40具体包括:
[0043]步骤S41、通过评估公式评估所述文本匹配模型的性能:
[0044]F1=(2*P*R)/(P+R);
[0045]P=TP/(TP+FN);
[0046]R=TP/(TP+FP);
[0047]其中,F1表示性能得分;P表示精确率;R表示召回率;TP表示实际意图为A,预测意图为A;FN表示实际意图为A,预测意图不为A;FP表示实际意图不为A,预测意图为A;
[0048]步骤S42、判断所述性能得分是否大于预设的性能阈值,若是,则进入步骤S50;若否,则扩充所述文本数据集,并进入步骤S30。
[0049]本专利技术的优点在于:
[0050]通过获取包括三元组数据以及文本数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多数据源的营销知识文本匹配方法,其特征在于:包括如下步骤:步骤S10、获取大量包括三元组数据以及文本数据的营销知识文本;步骤S20、对各所述营销知识文本进行预处理,进而构建文本数据集;步骤S30、创建一文本匹配模型,利用所述文本数据集对文本匹配模型进行训练以及调优;步骤S40、评估所述文本匹配模型的性能;步骤S50、利用所述文本匹配模型对待匹配文本数据进行相似匹配。2.如权利要求1所述的一种基于多数据源的营销知识文本匹配方法,其特征在于:所述步骤S10具体为:从图数据库中获取大量的营销知识的三元组数据,提取所述三元组数据中的实体词和关系词并进行拼接;从关系型数据库中获取大量的营销知识的文本数据;合并各所述三元组数据以及文本数据得到营销知识文本。3.如权利要求1所述的一种基于多数据源的营销知识文本匹配方法,其特征在于:所述步骤S20具体包括:步骤S21、去除各所述营销知识文本的噪声数据;步骤S22、对各所述营销知识文本进行去重处理;步骤S23、利用分词工具对各所述营销知识文本进行分词操作得到若干个词组,基于预设的停用词表去除所述词组中的停用词;步骤S24、将各所述词组作为正样本,并为各所述正样本选取预设数量个领域不同的词组作为负样本,进而构建文本数据集。4.如权利要求3所述的一种基于多数据源的营销知识文本匹配方法,其特征在于:所述步骤S21中,所述噪声数据至少包括URL、图片、表情、ID、特殊符号以及请求时间。5.如权利要求1所述的一种基于多数据源的营销知识文本匹配方法,其特征在于:所述步骤S30中,所述文本匹配模型包括一向量化模块、一全局相关性聚合模块以及一输出模块;所述全局相关性聚合模块的输入端与向量化模块连接,输出端与输出模块连接。6.如权利要求5所述的一种基于多数据源的营销知识文本匹配方法,其特征在于:所述向量化模块用于对三元组数据以及文本数据进行向量化;所述对三元组数据进行向量化具体为:利用BERT预训练模型对三元组数据的每一元数据进行向量化处理,得到每一元数据的第一Word Embe...

【专利技术属性】
技术研发人员:焦洪林陆向东朱坚赵庆勇
申请(专利权)人:福建新大陆软件工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1