一种基于文本挖掘的造价咨询单位准入考评方法及系统技术方案

技术编号:37131904 阅读:10 留言:0更新日期:2023-04-06 21:30
本发明专利技术提供的一种基于文本挖掘的造价咨询单位准入考评方法及系统,所述考评方法包括:收集数据;全面搜集准入规范相关条文,构建为指标评价报告,获得文本文件;对所述文本文件进行jieba中文分词以及停用词过滤的预处理;采用加权word2vec对所述评价报告与规范禁止准入条例逐条进行相似度计算;统计所述评价报告中超过相似度阀值的评价指标名单,获得统计值;根据所述统计值,结合加权赋分机制确定准入的企业名单。深入联系项目实际,基于文本挖掘,实现对电力造价咨询单位的优选与准入,向甲方提供可靠、有效的造价咨询单位业务能力评价。评价。评价。

【技术实现步骤摘要】
一种基于文本挖掘的造价咨询单位准入考评方法及系统


[0001]本专利技术涉及文本挖掘领域,尤其涉及一种基于文本挖掘的造价咨询单位准入考评方法及系统。

技术介绍

[0002]文本挖掘技术是指对文本的表示及其特征项的选取,是文本挖掘、信息检索中的基本问题。它将无结构的原始文本转化为结构化的计算机可以识别和处理的信息,从而建立数学模型来描述和代替文本,最终实现从大量文本中挖掘有效信息的目的。文本相似度研究是文本挖掘技术的一种,文本间的相似度计算方法可简单分为两类:基于字符串的文本相似度计算方法和基于语料库的文本间的相似度计算方法。前者是利用字符的组合以及字符串序列,计算余弦相似度或编辑距离相似度,这种基于字符串的方法是在字面层次上的文本比较,忽略了文本中大部分的词语是同义词和近义词,缺少对这些词汇的语义也就是在句子中真实的含义的考虑。这样不考虑文本的语义信息会使计算出的文本间的相似度很难符合人们的主观对文本的理解。而且该方法会带来维数灾难,从而使计算机的计算和数据的存储带来了严峻的挑战。为解决深入的处理相似度计算这个问题,研究者们着手研究基于语料库的方法。基于语料库的方法包括基于词袋模型的LSA、GLSA、PLSA、LDA等方法,还有基于神经网络的word2vec和doc2vec。能够很好的避免词袋模型中的词向量带来的维数灾难,从而降低文本相似度计算中的词向量计算的时间和空间的复杂度。

技术实现思路

[0003]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种基于文本挖掘的造价咨询单位准入考评方法及系统。
[0004]根据本专利技术的一个方面,提供了一种基于文本挖掘的造价咨询单位准入考评方法,所述考评方法包括:
[0005]步骤S1:从项目生命周期各阶段造价咨询单位提交的报告中收集数据;全面搜集准入规范相关条文,并改写为对应禁止项描述,构建为指标评价报告,获得文本文件;
[0006]步骤S2:对所述文本文件进行jieba中文分词以及停用词过滤的预处理;
[0007]步骤S3:使用Skip

gram模型将文本转化为向量;
[0008]步骤S4:采用加权word2vec对所述评价报告与规范禁止准入条例逐条进行相似度计算;
[0009]步骤S5:统计所述评价报告中超过相似度阀值的评价指标名单,获得统计值;
[0010]步骤S6:根据所述统计值,结合加权赋分机制确定准入的企业名单。
[0011]可选的,所述步骤S2:对所述文本文件进行jieba中文分词以及停用词过滤的预处理具体包括:
[0012]建立自定义常用专业词汇词库及停用词词库;
[0013]使用具有精确切分文本的jieba分词工具对文本文件进行分词处理,获得分词结
果;
[0014]调用停用词词库,进行停用词过滤,去除无关干扰信息;
[0015]对所述分词结果进行人工调整。
[0016]可选的,所述步骤S3:使用Skip

gram模型将文本转化为向量具体包括:
[0017]构建词汇表作为训练文本集,生成one

hot向量,作为Skip

gram模型的输入量;
[0018]选用softmax算法训练向量,训练Skip

gram模型,获得参数矩阵。
[0019]可选的,所述步骤S4:采用加权word2vec对所述评价报告与规范禁止准入条例逐条进行相似度计算具体包括:
[0020]文本提取对象包括需要比较的两条文本信息,具体为:
[0021]规范禁止准入条例,记为文本A
k
(k=1,2,
……
m);
[0022]评价报告中的各项,记为文本记为B
l
(l=1,2
……
n)。
[0023]使用基于Deep Learning的工具word2vec进行相似度计算,
[0024]引入函数WORDSIM(w
i
,w
j
)描述文本Ak中第i个分词w
i
和文本B
l
中第j个分词w
j
的相似度,以此实现两个文本中关键词的对比分析;相关公式表示为:
[0025][0026]其中,两个词语w
i
和w
j
的词向量表示为:w
i
=(x1,x2,x3,...x
i
...x
n
),w
j
=(x1,x2,x3,...x
j
...x
n
)。其中n表示用word2vec训练词向量时,设定的词向量的维数。
[0027]对于两个文本的多个关键词,建立文本相似度评价函数TEXTSIM,得出文本A
k
和文本B
l
的相似度。
[0028]具体方法为:设文本A
k
中共有p个关键词,文本B
l
中共有q个关键词构建两个文本的相似度矩阵,矩阵应为p
×
q阶矩阵,记为S
kl
=(s
pq
),
[0029][0030]其中,s
pq
=WORDSIM(wk
i
,wl
j
),i=1,2,3,
……
,p;j=1,2,3,
……
q。
[0031]可选的,相似度计算还包括:两个文本的词语间大部分相似度比较低,只考虑文本中的词语与另一文本中与该词相似度最高的词语的相似度,建立回复文本内容相似度计算方法,步骤如下:
[0032]令M
ijn
为第n次去掉本矩阵的第i行和第j列的余子式;
[0033]找出文本相似矩阵Skp的第1行的最大值在第i列,最大值记为m1;
[0034]去掉矩阵中的这个最大值所在的行列,即去掉矩阵Skp的第1行和第i列得到余子阵M
1i1

[0035]继续找余子阵M
1i1
第1行的最大值在第j列,最大值记为m2;
[0036]再去掉矩阵M
1i1
中第1行的这个最大值所在的行列,即去掉矩阵M
1i1
的第1行和第j列得到余子阵M
1j2

[0037]直到得到余子阵为空矩阵为止;
[0038]查找的次数为min(p,q),构造如下文本Ak和文本Bl的相似度:
[0039][0040]其中,W
i
为列表中第i个词在文本Bl中的TF

IDF值,此处作为相似度计算权重值
[0041]文本中某个词的TF

IDF值计算过程如下:
[0042]其中,n
ij
...

【技术保护点】

【技术特征摘要】
1.一种基于文本挖掘的造价咨询单位准入考评方法,其特征在于,所述考评方法包括:步骤S1:从项目生命周期各阶段造价咨询单位提交的报告中收集数据;全面搜集准入规范相关条文,并改写为对应禁止项描述,构建为指标评价报告,获得文本文件;步骤S2:对所述文本文件进行jieba中文分词以及停用词过滤的预处理;步骤S3:使用Skip

gram模型将文本转化为向量;步骤S4:采用加权word2vec对所述评价报告与规范禁止准入条例逐条进行相似度计算;步骤S5:统计所述评价报告中超过相似度阀值的评价指标名单,获得统计值;步骤S6:根据所述统计值,结合加权赋分机制确定准入的企业名单。2.根据权利要求1所述的一种基于文本挖掘的造价咨询单位准入考评方法,其特征在于,所述步骤S2:对所述文本文件进行jieba中文分词以及停用词过滤的预处理具体包括:建立自定义常用专业词汇词库及停用词词库;使用具有精确切分文本的jieba分词工具对文本文件进行分词处理,获得分词结果;调用停用词词库,进行停用词过滤,去除无关干扰信息;对所述分词结果进行人工调整。3.根据权利要求1所述的一种基于文本挖掘的造价咨询单位准入考评方法,其特征在于,所述步骤S3:使用Skip

gram模型将文本转化为向量具体包括:构建词汇表作为训练文本集,生成one

hot向量,作为Skip

gram模型的输入量;选用softmax算法训练向量,训练Skip

gram模型,获得参数矩阵。4.根据权利要求1所述的一种基于文本挖掘的造价咨询单位准入考评方法,其特征在于,所述步骤S4:采用加权word2vec对所述评价报告与规范禁止准入条例逐条进行相似度计算具体包括:文本提取对象包括需要比较的两条文本信息,具体为:规范禁止准入条例,记为文本A
k
(k=1,2,
……
m);评价报告中的各项,记为文本记为B
l
(l=1,2
……
n);使用基于Deep Learning的工具word2vec进行相似度计算,引入函数WORDSIM(w
i
,w
j
)描述文本Ak中第i个分词w
i
和文本B
l
中第j个分词w
j
的相似度,以此实现两个文本中关键词的对比分析。相关公式表示为:其中,两个词语w
i
和w
j
的词向量表示为:w
i
=(x1,x2,x3,...x
i
...x
n
),w
j
=(x1,x2,x3,...x
j
...x
n
)。其中n表示用word2vec训练词向量时,设定的词向量的维数。对于两个文本的多个关键词,建立文本相似度评价函数TEXTSIM,得出文本A
k
和文本B
l
的相似度。具体方法为:设文本A
k
中共有p个关键词,文本B
l
中共有q个关键词构建两个文本的相似度矩阵,矩阵应为p
×
q阶矩阵,记为S
kl
=(s
pq
),
其中,s
pq
=WORDSIM(wk
i
,wl
j
),i=1,2,3,
……
,p;j=1,2,3,
……
q。5.根据权利要求4所述的一种基于文本挖掘的造价咨询单位准入考评方法,其特征在于,相似度计算还包括:两个文本的词语间大部分相似度比较低,只考虑文本中的词语与另一文本中与该词相似度最高的词语的相似度,建立回复文本内容相似度计算方法,步骤如下:令...

【专利技术属性】
技术研发人员:赵颖博范西荣尚勇李晓兵孙斌徐文婷邓怡卿姚普及李锋涛王嵘婧冯芫任欣李丹靳宇阳戴勍苏广庆王俊红姜海乔王玉军
申请(专利权)人:国网陕西省电力公司经济技术研究院中联五洲工程咨询有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1