用于稿件处理的词向量搭建方法和稿件处理方法和装置制造方法及图纸

技术编号:33921059 阅读:22 留言:0更新日期:2022-06-25 21:02
本公开涉及一种用于稿件处理的词向量搭建方法和稿件处理方法和装置,包括:由资讯数据库中获取词向量模型搭建所需要的标签栏目。并由资讯数据库中所存储的各稿件中提取出预设个数的分词及各分词的向量值。对于各标签栏目,均对应匹配分词和向量值,构成包含标签栏目、分词和向量值的数据集合。基于所构成的数据集合,搭建得到词向量模型。其中,词向量模型为由多个数据集合形成的矩阵。本公开使用基于支持向量机原理的模型进行设计,通过映射特征过程的调参处理,来满足实际的业务需求。利用单篇文章的特征值和整体模型的特征值,辅助一些特定算法,就可以实现签发栏目推荐等功能。就可以实现签发栏目推荐等功能。就可以实现签发栏目推荐等功能。

【技术实现步骤摘要】
用于稿件处理的词向量搭建方法和稿件处理方法和装置


[0001]本公开涉及稿件签发领域,尤其涉及一种用于稿件处理的词向量搭建方法和稿件处理方法和装置。

技术介绍

[0002]财经类稿件对实时性、准确性要求很高,这就要求稿件生产系统需要提供快速、无差错的稿件签发技术支撑,编辑签发稿件需要进行签发栏目推荐等业务处理。
[0003]目前,稿件大都是基于神经网络的自然语言模型进行业务处理的,但是,这种模型参数量大,实际生产环境部署成本较高,大并发时占用资源较多,模型更新需要耗费的计算资源和时间都比较多。如何使用基于支持向量机的自然语言模型对财经领域稿件进行业务处理,成为本领域技术人员亟待解决的问题。

技术实现思路

[0004]有鉴于此,本公开提出了一种用于稿件处理的词向量搭建方法和稿件处理方法和装置,使用基于支持向量机的自然语言模型对财经领域稿件进行业务处理,降低了部署成本。
[0005]根据本公开的一方面,提供了一种用于进行稿件处理的词向量模型搭建方法,包括:
[0006]由资讯数据库中获取词向量模型搭建所需要的标签栏目,并由所述资讯数据库中所存储的各稿件中提取出预设个数的分词及各所述分词的向量值;
[0007]对于各所述标签栏目,均对应匹配所述分词和所述向量值,构成包含所述标签栏目、所述分词和所述向量值的数据集合;
[0008]基于所构成的所述数据集合,搭建得到所述词向量模型;
[0009]其中,所述词向量模型为由多个所述数据集合形成的矩阵。
[0010]在一种可能的实现方式中,由所述资讯数据库中所存储的各稿件中提取出预设个数的分词及各所述分词的向量值时,基于开源的词库得到。
[0011]在一种可能的实现方式中,基于开源的词库由各稿件中提取出预设个数的分词时,包括:
[0012]根据所述词库中的分词工具包对所述稿件进行分词,由所述稿件中提取出第一分词集合和第二分词集合;其中,所述第一分词集合和所述第二分词集合分别采用不同的分词提取算法得到;
[0013]基于所述资讯数据库分别计算得到所述第一分词集合中各分词的IDF值和所述第二分词集合中各分词的IDF值;
[0014]根据所述第一分词集合中各分词的IDF值的大小对所述第一分词集合中各分词进行排序得到第一分词序列,由所述第一分词序列中选取前n个分词作为第一待提取词;
[0015]根据所述第二分词集合中各分词的IDF值的大小对所述第二分词集合中各分词进
行排序得到第二分词序列,由所述第二分词序列中选取前n个分词作为第二待提取词;
[0016]其中,n>N,N为预设个数;
[0017]由n个所述第一待提取词和n个所述第二待提取词构成的分词集合中取前N个分词作为预设个数的分词。
[0018]在一种可能的实现方式中,对于各所述标签栏目,均对应匹配所述分词和所述向量值,构成包含所述标签栏目、所述分词和所述向量值的数据集合时,每个所述标签栏目与各所述分词均一一对应。
[0019]在一种可能的实现方式中,还包括更新所述词向量模型的步骤;
[0020]其中,更新所述词向量模型时,基于所述资讯数据库中新增稿件进行。
[0021]根据本公开的另一方面,提供一种基于词向量模型进行稿件处理的方法,包括:
[0022]获取当前待处理稿件;
[0023]调用预先搭建的所述词向量模型,由所述词向量模型中提取出当前稿件处理所需要的参数信息;
[0024]采用所述参数信息,对所述待处理稿件进行相应的处理;
[0025]其中,词向量模型采用权利要求1至5任一项所述的搭建方法搭建得到。
[0026]在一种可能的实现方式中,对所述待处理稿件进行相应的处理时,包括:
[0027]对所述待处理稿件进行签发栏目推荐。
[0028]在一种可能的实现方式中,对所述待处理稿件进行签发栏目推荐时,包括:
[0029]所述词向量模型中每个签发栏目下的关键词和词向量构成当前签发栏目的矩阵,计算每个签发栏目的特征值;
[0030]基于所述待处理稿件构建待处理稿件词矩阵;
[0031]计算每个签发栏目的特征值与所述待处理稿件词矩阵的相似度;
[0032]相似度大于预设值的签发栏目为所述待处理稿件的推荐栏目。
[0033]根据本公开的另一方面,提供一种稿件处理装置,包括:分词提取模块、词向量模型搭建模块和稿件处理模块;
[0034]所述分词提取模块,被配置为由所述资讯数据库中获取词向量模型搭建所需要的标签栏目,并由所述资讯数据库中所存储的各稿件中提取出预设个数的分词及各所述分词的向量值;
[0035]所述词向量模型搭建模块,被配置为基于由所述标签栏目、所述分词和所述向量值所构成的所述数据集合,搭建得到所述词向量模型;
[0036]所述稿件处理模块,被配置为由所述词向量模型中提取出当前稿件处理所需要的参数信息,采用所述参数信息,对所述待处理稿件进行相应的处理。
[0037]根据本公开的另一方面,提供一种稿件处理设备,其特征在于,包括:处理器;
[0038]用于存储处理器可执行指令的存储器;
[0039]其中,所述处理器被配置为执行所述可执行指令时实现上述方法。
[0040]本公开适用于通过搭建的词向量模型对稿件进行处理。词向量模型基于资讯数据库进行搭建,资讯数据库中的稿件均为签发过的稿件,签发过的稿件均包含有其所属标签栏目。由资讯数据库中所存储的各稿件进行分词,提取出权重较高的预设个数分词及其词向量,标签栏目、分词和词向量构成数据集合,将所得到的所有数据集合进行排列组合所形
成的矩阵为词向量模型。本公开使用基于支持向量机原理的模型进行设计,通过映射特征过程的调参处理,来满足实际的业务需求。利用单篇文章的特征值和整体模型的特征值,辅助一些特定算法,就可以实现查重、图片推荐、标签推荐、签发栏目推荐等功能。
[0041]根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
[0042]包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
[0043]图1示出本申请实施例的用于进行稿件处理的词向量模型搭建方法的流程图;
[0044]图2示出本申请实施例的稿件处理装置的主体结构图;
[0045]图3示出本申请实施例的稿件处理设备的主体结构图;
[0046]图4示出本申请实施例的获取的稿件分词及其权重值。
具体实施方式
[0047]以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0048]在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于进行稿件处理的词向量模型搭建方法,其特征在于,包括:由资讯数据库中获取词向量模型搭建所需要的标签栏目,并由所述资讯数据库中所存储的各稿件中提取出预设个数的分词及各所述分词的向量值;对于各所述标签栏目,均对应匹配所述分词和所述向量值,构成包含所述标签栏目、所述分词和所述向量值的数据集合;基于所构成的所述数据集合,搭建得到所述词向量模型;其中,所述词向量模型为由多个所述数据集合形成的矩阵。2.根据权利要求1所述的词向量搭建方法,其特征在于,由所述资讯数据库中所存储的各稿件中提取出预设个数的分词及各所述分词的向量值时,基于开源的词库得到。3.根据权利要求2所述的词向量搭建方法,其特征在于,基于开源的词库由各稿件中提取出预设个数的分词时,包括:根据所述词库中的分词工具包对所述稿件进行分词,由所述稿件中提取出第一分词集合和第二分词集合;其中,所述第一分词集合和所述第二分词集合分别采用不同的分词提取算法得到;基于所述资讯数据库分别计算得到所述第一分词集合中各分词的IDF值和所述第二分词集合中各分词的IDF值;根据所述第一分词集合中各分词的IDF值的大小对所述第一分词集合中各分词进行排序得到第一分词序列,由所述第一分词序列中选取前n个分词作为第一待提取词;根据所述第二分词集合中各分词的IDF值的大小对所述第二分词集合中各分词进行排序得到第二分词序列,由所述第二分词序列中选取前n个分词作为第二待提取词;其中,n>N,N为预设个数;由n个所述第一待提取词和n个所述第二待提取词构成的分词集合中取前N个分词作为预设个数的分词。4.根据权利要求1所述的词向量搭建方法,其特征在于,对于各所述标签栏目,均对应匹配所述分词和所述向量值,构成包含所述标签栏目、所述分词和所述向量值的数据集合时,每个所述标签栏目与各所述分词均一一对应。5.根据权利要求...

【专利技术属性】
技术研发人员:晋东毅
申请(专利权)人:中国经济信息社有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1