System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于自然语言处理的投标文件查重方法及系统技术方案_技高网

一种基于自然语言处理的投标文件查重方法及系统技术方案

技术编号:43881756 阅读:9 留言:0更新日期:2024-12-31 19:05
本发明专利技术公开了一种基于自然语言处理的投标文件查重方法及系统,涉及文本相似度计算技术领域,解决了在投标文件查重中,难以将文件内部的重复文字对投标文件之间查重结果的影响去除,以及忽视了同一种意思用不同的表达方式带来的查重率降低的技术问题;本发明专利技术通过将各投标文件的文本内容转换为非文本语言的设定语言,基于各投标文件的文本语言为各投标文件进行内部查重得到内部重复率,基于各投标文件的文本语言与设定语言为各投标文件进行外部查重得到外部重复率;将内部重复率和外部重复率进行综合得到重复因子,基于重复因子输出查重结果;本发明专利技术能够提高两个投标文件之间相似度计算的准确性,保障了招投标秩序和市场经济秩序。

【技术实现步骤摘要】

本专利技术属于文件查重领域,涉及文本相似度计算技术,具体是一种基于自然语言处理的投标文件查重方法及系统


技术介绍

1、围标是指招标者与投标者之间或者投标者与投标者之间采用不正当手段,对招投标事项进行串通,以排挤竞争对手或者损害招标者利益的行为;串标是招标单位之间或者投标单位与招标单位相互串通骗取中标。在现代招投标过程中,可能会出现围标、串标等不正当竞争行为,这种行为严重危害了正常的招投标秩序和市场经济秩序,随着电子招投标的普及,投标文件的数量和复杂性不断增加,传统的手动查重方法不仅效率低下,而且难以保证查重的准确性和公正性。

2、目前,大多数基于自然语言处理的投标文件查重方法,在投标文件查重中,难以将文件内部的重复文字对投标文件之间查重结果的影响去除,如果不将这种重复文字的影响去除,那么在与其他投标文件进行重复性对比时,这些重复的部分会被重复地计入两个投标文件的相似度中,导致相似度变高,影响分析结果的准确性;同时,大多数基于自然语言处理的投标文件查重方法,在投标文件查重中,忽视了同一种意思用不同的表达方式带来的查重率降低的情况,若不将这种情况识别出来会造成两个投标文件的相似度计算不准确,导致提供给使用者的数据不准确带来的利益损失。

3、因此,本专利技术公开了一种基于自然语言处理的投标文件查重方法及系统,用于解决以上技术问题。


技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题之一;为此,本专利技术提出了一种基于自然语言处理的投标文件查重方法及系统,用于解决在投标文件查重中,难以将文件内部的重复文字对投标文件之间查重结果的影响去除,以及忽视了同一种意思用不同的表达方式带来的查重率降低的技术问题,本专利技术通过各投标文件的文本内容转换为非文本语言的设定语言,基于各投标文件的文本语言为各投标文件进行内部查重得到内部重复率,基于各投标文件的文本语言与设定语言为各投标文件进行外部查重得到外部重复率;将内部重复率和外部重复率进行综合得到重复因子,基于重复因子输出查重结果解决了上述问题。

2、为实现上述目的,本专利技术的第一方面提供了一种基于自然语言处理的投标文件查重方法,包括:

3、s1:获取各投标文件的基础信息;其中,基础信息包括文本内容和文本语言;

4、s2:将各投标文件的文本内容转换为非文本语言的设定语言,基于各投标文件的文本语言为各投标文件进行内部查重得到内部重复率,基于各投标文件的文本语言与设定语言为各投标文件进行外部查重得到外部重复率;其中,非文本语言为与文本内容所使用的文本语言不是同一种的语言;设定语言包括中文、英语、法语;

5、s3:将内部重复率和外部重复率进行综合得到重复因子,基于重复因子输出查重结果。

6、优选的,所述获取各投标文件的基础信息,包括:

7、使用文本识别技术获取各投标文件的文本内容,使用自然语言处理技术识别各投标文件的文本内容中包含的语言情况,将文本内容中各语言所用字数占文本内容中总字数比例最大的语言标记为对应投标文件的文本语言。

8、优选的,所述将各投标文件的文本内容转换为非文本语言的设定语言,包括:

9、提取各投标文件的文本语言,判断所述文本语言是否为设定语言中的语言;是,将对应投标文件的文本内容通过自然语言处理技术翻译为设定语言中的非对应文本语言;否,将对应投标文件的文本内容通过自然语言处理技术翻译为设定语言中的语言。

10、优选的,所述基于各投标文件的文本语言为各投标文件进行内部查重得到内部重复率,包括:

11、依次提取各投标文件的文本内容,通过自然语言处理技术提取所述文本内容的关键词,将包含关键词的句子标记为目标句子,基于目标句子在对应文本中出现的顺序对目标句子进行编号;

12、根据编号依次获取目标句子与当前文本内容中其他目标句子之间的相似度,判断若干所述相似度中是否存在超过目标阈值的相似度;是,获取若干所述超过目标阈值相似度的平均值,并将所述平均值标记为当前提取目标句子的目标平均值;否,将当前提取目标句子的目标平均值标记为0;

13、获取当前文本内容中所有目标句子的目标平均值,并去除若干所述目标平均值中低于目标平均阈值的目标平均值,将剩余的目标平均值进行平均值计算得到当前文本内容的内部重复率一nc1;其中,目标阈值和目标平均阈值均是通过经验得到;

14、对当前文本内容进行内部查重得到内部重复率二nc2,基于公式nc=α×(exp(β1×nc1+β2×nc2)-1)得到当前投标文件的内部重复率nc;其中,α为幅度调节系数,且α的取值范围为(0,1];β1和β2均为比例调节系数,β1+β2=1,且β1>β2>0。

15、值得注意的是,投标文件的内部重复率表达的是,投标文件中相似句子出现的情况,当出现内部重复率高的时候证明该投标文件中使用了投标文件包含大量标准或通用内容,这一部分对评估各个投标文件之间的重复程度会产生一定的干扰情况,因此本专利技术先将这一部分的重复情况分析出来,为后续计算各个投标文件之间的重复程度提供了数据支持。

16、优选的,所述对当前文本内容进行内部查重得到内部重复率二nc2,包括:

17、根据当前文本内容中句子出现的顺序对各句子进行排序,依序获取各句子与当前文本内容中其他句子之间的相似度,并将若干所述相似度标记为当前句子的参考相似度;

18、基于各句子的序号建立若干参考相似度组,获取各组的方差,判断所述方差是否低于参考阈值;是,将对应的参考相似度组进行平均值计算得到特征值;否,去除与对应参考相似度组中最低的参考相似度,并重新进行方差判断,直到对应参考相似度组的方差低于参考阈值时将剩余的参考相似度进行平均值计算得到特征值;其中,参考阈值是通过经验得到;

19、将各参考相似度组的特征值进行平均值计算得到内部重复率二nc2。

20、优选的,所述基于各投标文件的文本语言与设定语言为各投标文件进行外部查重得到外部重复率,包括:

21、a1:获取投标文件的数量n,判断n是否为1;是,将外部重复率标记为0;否,跳转至a2;

22、a2:依次选择文本语言或设定语言中的语言,提取各投标文件在当前选择的语言中的文本内容,通过余弦相似度算法依次获取各所述文本内容与其他文本内容之间的相似度,并将文本内容与其他文本内容之间的若干相似度进行平均值计算,得到当前文本内容在当前语言下的相似度平均值;

23、a3:提取当前文本内容与其他文本内容在不同设定语言下的相似度平均值,并将若干所述相似度平均值进行平均值计算,得到当前投标文件与其他投标文件的相似值,并将所述相似值标记为当前投标文件与对应投标文件之间的外部重复率。

24、优选的,所述将内部重复率和外部重复率进行综合得到重复因子,包括:

25、提取各投标文件的内部重复率nc,提取各投标文件与其他投标文件之间的外部重复率bci;基于公式cyz=δ×e本文档来自技高网...

【技术保护点】

1.一种基于自然语言处理的投标文件查重方法,其特征在于:

2.根据权利要求1所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述获取各投标文件的基础信息,包括:

3.根据权利要求2所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述将各投标文件的文本内容转换为非文本语言的设定语言,包括:

4.根据权利要求2所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述基于各投标文件的文本语言为各投标文件进行内部查重得到内部重复率,包括:

5.根据权利要求4所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述对当前文本内容进行内部查重得到内部重复率二NC2,包括:

6.根据权利要求4所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述基于各投标文件的文本语言与设定语言为各投标文件进行外部查重得到外部重复率,包括:

7.根据权利要求6所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述将内部重复率和外部重复率进行综合得到重复因子,包括:

8.根据权利要求7所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述基于重复因子输出查重结果,包括:

9.根据权利要求8所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述将相似投标文件根据目标重复因子进行排序输出对应的投标文件名称和重复因子,包括:

10.一种基于自然语言处理的投标文件查重系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于自然语言处理的投标文件查重方法,其特征在于:

2.根据权利要求1所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述获取各投标文件的基础信息,包括:

3.根据权利要求2所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述将各投标文件的文本内容转换为非文本语言的设定语言,包括:

4.根据权利要求2所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述基于各投标文件的文本语言为各投标文件进行内部查重得到内部重复率,包括:

5.根据权利要求4所述的一种基于自然语言处理的投标文件查重方法,其特征在于,所述对当前文本内容进行内部查重得到内部重复率二nc2,包括:

6.根据权利...

【专利技术属性】
技术研发人员:方毛林王磊殷敏王政骆星智马路遥钱龙张霰金义裴正杰
申请(专利权)人:国网安徽省电力有限公司经济技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1