基于多源数据联合学习的商务角色预测方法技术

技术编号:30047255 阅读:21 留言:0更新日期:2021-09-15 10:48
本发明专利技术公开了一种基于多源数据联合学习的商务角色预测方法,包括:数据收集和商业角色标签;数据预处理;学习联合表征的转化过程;预测公司的商业角色;本发明专利技术可以自动连接和之间的数据关系,获得和数据的联合表示,并学习专家标注的数据知识,这样可以大大提高用户在线检索商务伙伴的效率,并提高用户处理来自搜索引擎的大数据的效率,尤其是可以为B2B营销管理引入AI提供有用的参考,如处理大量文本数据并因此获得丰富的信息以供决策。供决策。供决策。

【技术实现步骤摘要】
基于多源数据联合学习的商务角色预测方法


[0001]本专利技术涉及大数据
,特别是一种基于多源数据联合学习的商务角色预测方法。

技术介绍

[0002]互联网的发展使得中小企业可以通过搜索引擎在线寻找到与产品相关的商业伙伴。但是,普通用户很难通过一条搜索引擎数据判断与其产品相关的公司商务角色(如供应商,零售商或其他)。通常,人们认为其他信息源(例如实际的网页数据),可以帮助用户确定与相关的公司的商务角色。然而,获得并处理该类信息是劳动密集型的工作,费时且昂贵。
[0003]随着电子商务的发展,越来越多的企业通过互联网展示自己的产品、品牌和简介,特别是在自己的官方网站或公开的在线市场。因此,互联网影响企业合作关系的一个重要方式是,(企业)用户可以在互联网上公开搜索潜在的合作伙伴。例如,生产者在网上搜索其商品的分销商,装配商在网上搜索其零部件的供应商,等等。通过互联网寻找商业伙伴的方式,增加了企业商业活动的灵活性,使一些重要行业得以持续经营。
[0004]虽然一些著名的B2B电子市场,如Alibaba.com,旨在帮助用户快速找到商业伙伴。然而,随着B2B电子市场信息过载问题的日益严重,关系承诺和信任可能会促使企业以自己的方式在网上寻找合作伙伴。为了帮助用户高效地找到合适的商业伙伴,google.com等搜索引擎经常被用来在万维网上系统地搜索用户所需的特定信息。图1是用户通过google.com搜索潜在合作伙伴的一般过程。当用户在搜索引擎的查询栏中输入适当的(通常是产品信息相关的)查询词时,这个搜索过程就开始了。接下来,搜索引擎会返回一组搜索到的数据对于中的每一个数据都包含三个项目,即标题、URL和片段。进一步,用户可以根据这三个项目所呈现的内容,初步判断是否与自己的搜索意图相关。如果判断结果是Yes,由于提供的信息非常有限,用户则需要点击URL(即URL)打开网站上的网页,进一步阅读网页数据然后对与相关联的公司是否是她/他想要寻找的合适的合作伙伴做出最终判断。
[0005]在这种“先基于初步识别,再基于最终确定”的信息检索模式下,用户面临着基于预判公司业务角色的准确性问题。毕竟中的信息是有限的,搜索引擎返回的结果也不一定与用户实际寻找的数据相关。尤其是,如果一条不相关的被判断为相关,那么用户打开网页阅读信息就是浪费时间。相反,如果一个相关的被判断为不相关,用户将面临失去正确信息的风险。此外,用户还面临着信息检索和决策效率的问题。首先,搜索引擎返回的结果量通常非常大,尤其是当查询词是流行词的时候。换句话说,是真正的“大数据”。其次,对于用户来说,将URL连接到其实际页面并阅读其内容也是一
项耗时的任务。显然,从的海量数据中识别出所需的合作伙伴对用户来说是一项艰难的挑战,这便提出了一个有趣的研究问题,即如何才能高效地自动预测与中数据相关联的公司的商业角色。
[0006]传统的基于机器学习的解决方案是将上述预测问题转化为网页的分类问题,因此会有两种不同的解决方案,一是在用户端优化查询词,二是在网页端做SEO。但是,前一种方法的有效使用需要用户既是业务专家又是信息检索专家,这就限制了该方法的通用性。而后一种方法则面临着较高的经济成本。

技术实现思路

[0007]为解决现有技术中存在的问题,本专利技术的目的是提供一种基于多源数据联合学习的商务角色预测方法,本专利技术可以自动连接和之间的数据关系,获得和数据的联合融合表示表征,并学习专家标注的数据知识,这样可以大大提高用户在线检索商务伙伴的效率,并提高用户处理来自搜索引擎的大数据的效率,尤其是可以为B2B营销管理引入AI提供有用的参考,如处理大量文本数据并因此获得丰富的信息以供决策。
[0008]为实现上述目的,本专利技术采用的技术方案是:一种基于多源数据联合学习的商务角色预测方法,包括以下步骤:
[0009]步骤1、数据收集和商业角色标签:收集搜索引擎返回的结果到搜索引擎数据集同时,从搜索引擎数据集中的URL所指向的页面中抓取网页数据集并在每个页面上标注其代表的商业角色;
[0010]步骤2、数据预处理:文本分词和词语向量化,将搜索引擎数据集中的每一个数据和网页数据集中的每一个数据转化为向量和
[0011]步骤3、学习联合融合表征的转化过程:学习和之间的联合融合表示,通过两个参数化的函数,即编码器E
α
(.)和解码器D
β
(.)来获取搜索引擎数据集和网页数据集的共同信息,通过优化α和β的值,使的结果收敛于联合融合表征的高维向量H
i
,D
β
(H
i
)以较低的损失收敛于
[0012]步骤4、预测公司的商业角色:学习预测模型f
γ
(.)来预测与相关的公司的商业角色,即其中,α、β和γ分别表示在编码、解码和预测过程中需要学习的参数集。
[0013]作为本专利技术的进一步改进,所述步骤1具体如下:
[0014]首先,将每个产品的产品术语输入搜索引擎,模拟用户的查询过程;
[0015]然后,抓取搜索引擎返回的所有数据项,并将标题、URL和片段这三个项目连接起来,形成搜索引擎数据集
[0016][0017]同时,根据URL,抓取相应网页的页面内容:
[0018][0019]最后,通过专家手动登陆网址的原始页面,在线阅读内容,然后在每个页面上标注
商业角色。
[0020]作为本专利技术的进一步改进,所述的商业角色包括零售商、生产商和其他。
[0021]作为本专利技术的进一步改进,在步骤2中,采用BERT词嵌入和句子嵌入方法进行词语向量化,具体如下:
[0022]的词语向量化:首先将搜索引擎数据集中的每一个数据离散为一串长度为L的词语:然后每个词被BERT 表征成向量得到向量化的即
[0023]的词语向量化:使用预训练模型VGG

16将从网页中提取的每张图片表示为一个向量,如果有多张图片,则使用平均法进行数据融合,然后使用BERT 将从网页中提取的文本嵌入为一个句子向量,使用LSTM对从网页中提取的多个句子进行融合,最后,从图像和文本中提取的数据被一个编码器

解码器模型融合,从而中的所有相关数据被融合成一个整体的向量
[0024]作为本专利技术的进一步改进,所述步骤3中,所述编码器采用BiLSTM模型,所述解码器采用注意力LSTM模型,编码器和解码器的输出被指定为:
[0025][0026]作为本专利技术的进一步改进,步骤3中的编码解码过程即将的语义翻译成其匹配的页面数据的过程,在翻译过程中,采取和之间的均方误差 MSE来评估学习损失
[0027][0028]当函数被最小化时,得到和的联合表示H
i
,的优化目标是获得合适的α和β,使和之间的差异尽可能小。
[0029]作为本专利技术的进一步改进,所述步骤4具体如下:
[0030]将H
i
=[h1,h2,
...

【技术保护点】

【技术特征摘要】
1.一种基于多源数据联合学习的商务角色预测方法,其特征在于,包括以下步骤:步骤1、数据收集和商业角色标签:收集搜索引擎返回的结果到搜索引擎数据集同时,从搜索引擎数据集中的URL所指向的页面中抓取网页数据集并在每个页面上标注其代表的商业角色;步骤2、数据预处理:文本分词和词语向量化,将搜索引擎数据集中的每一个数据和网页数据集中的每一个数据转化为向量和步骤3、学习联合融合表征的转化过程:学习和之间的联合融合表示,通过两个参数化的函数,即编码器E
α
(.)和解码器D
β
(.)来获取搜索引擎数据集和网页数据集的共同信息,通过优化α和β的值,使的结果收敛于联合融合表征的高维向量H
i
,D
β
(H
i
)以较低的损失收敛于步骤4、预测公司的商业角色:学习预测模型f
γ
(.)来预测与相关的公司的商业角色,即其中,α、β和γ分别表示在编码、解码和预测过程中需要学习的参数集。2.根据权利要求1所述的基于多源数据联合学习的商务角色预测方法,其特征在于,所述步骤1具体如下:首先,将每个产品的产品术语输入搜索引擎,模拟用户的查询过程;然后,抓取搜索引擎返回的所有数据项,并将标题、URL和片段这三个项目连接起来,形成搜索引擎数据集成搜索引擎数据集同时,根据URL,抓取相应网页的页面内容:最后,通过专家手动登陆网址的原始页面,在线阅读内容,然后在每个页面上标注商业角色。3.根据权利要求2所述的基于多源数据联合学习的商务角色预测方法,其特征在于,所述的商业角色包括零售商、生产商和其他。4.根据权利要求1所述的基于多源数据联合学习的商务角色预测方法,其特征在于,在步骤2中,采用BERT词嵌入和句子嵌入方法进行词语向量化,具体如下:的词语向量化:首先将搜索引擎数据集中的每一个数据离散为一串长度为L的词语:然后每个词被BERT表征成向量得到向量化的即即的词语向量化:使用预训练模型VGG

16将从网页中提取的每张图片表示为一个向量,如果有多张图片,则使用平均法进行数据融合,然后使用BERT将从网页中提取的文本嵌入为一个句子向量,使用LSTM对从网页中提取的多个句子进行融合,最后,从图像和文本中提取的数据被一个编码器

解码器模型融合,从...

【专利技术属性】
技术研发人员:袁华钱宇郑杰李善兵高勇余长江蒲首萄
申请(专利权)人:重庆慧发网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1