System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,尤其是涉及一种通信工程记录文件信息处理方法、装置及存储介质。
技术介绍
1、通信工程项目的进行过程中,需要进行过程监督,在这个过程中,需要阅读大量的自然文本,效率较低。
2、因此,本领域技术人员在研究一些机器学习的技术来预处理这些自然语言的语料,现有技术中,一般是通过先对自然语言的文本进行ocr处理得到文本输入,然后对输入的文本进行分词处理等得到词向量,然后利用各个词向量之间的相似度抽取出部分关键词,再将抽取出的关键词的词向量输入至诊断模型,得到重要度诊断结果,最后根据得到重要度结合阈值判断的方式来形成初步诊断结果提示专家注意。
3、但是,在将此类模型应用于通信工程项目中,由于通信工程项目中有很多的词存在着较高的相似性,导致抽取出的关键词往往不准确,导致无法减轻专家的工作量。
技术实现思路
1、本专利技术的目的就是为了提供一种通信工程记录文件信息处理方法、装置及存储介质,通过将原始语料文本生成多个原始语句,再对分词的词向量利用前后的分词的词向量进行修正,然后计算关键词并得到最后的结果,可以充分表达分词的语境义,从而提高对整体原始语句的语义处理结果,实现智能辅助评审。
2、本专利技术的目的可以通过以下技术方案来实现:
3、一种通信工程记录文件信息处理方法,包括:
4、对通信工程记录文件进行ocr处理得到原始语料文本;
5、基于原始语料文本进行分句处理得到多个原始语句;
7、根据同一原始语句中各分词之间的距离和词性,生成各分词之间的影响权重;
8、基于同一原始语句中,所有分词之间的影响权重更新各分词的词向量;
9、计算得到更新后的所有分词的词向量之间的距离得到原始语句的邻接矩阵;
10、将邻接矩阵输入至训练好的检测模型,得到检测模型输出的风险度;
11、若风险度大于预配置的阈值风险,则将对应的原始语句进行高亮显示。
12、所述基于原始语料文本进行分句处理得到多个原始语句,包括:
13、按照句号、逗号和分号对原始语料文本进行切割得到多个语句单元;
14、对各语句单元进行处理得到语句单元内所有分词的词向量;
15、基于语句单元内所有分词的词向量得到该语句单元的融合向量;
16、计算前后两个语句单元的融合向量的相似度,并基于计算得到的相似度将语句单元进行组合,得到原始语句。
17、所述计算前后两个语句单元的融合向量的相似度,并基于计算得到的相似度将语句单元进行组合,得到原始语句,包括:
18、步骤s2-1:计算前后两个语句单元的融合向量的相似度;
19、步骤s2-2:创建第一个语句集合作为当前语句集合,选择第一个语句单元并放置于第一个语句集合中;
20、步骤s2-3:判断当前选择的语句单元与后一个语句单元的融合向量的相似度是否超过预配置的阈值,若为是,则执行步骤s2-4,反之,则执行步骤s2-6;
21、步骤s2-4:将所述后一个语句单元作为当前选择的语句单元,放置于当前语句集合后判断当前语句集合中语句单元的数量是否超过预配置的阈值数量,若为是,则执行步骤s2-5,反之,则执行步骤s2-7;
22、步骤s2-5:以当前语句集合中融合向量相似度最低的两个相邻的语句单元为分界线,对当前语句集合进行切分,选择后一个切分后的集合作为新的当前语句单元,并执行步骤s2-7;
23、步骤s2-6:创建一个新的语句集合作为当前语句集合,将所述后一个语句单元作为当前选择的语句单元放置于当前语句集合中,并执行步骤s2-7;
24、步骤s2-7:判断是否还有未遍历的语句单元,若为是,则执行步骤s2-3,反之则执行步骤s2-8;
25、步骤s2-8:将各语句集合中的语句单元进行拼接得到对应于各语句集合的原始语句。
26、所述对原始语句进行处理得到多个词向量的过程采用word2vec。
27、所述影响权重为:
28、wi,j=f(wdi,j,wci,j)
29、其中:wi,j为第j个分词对第i个分词的影响权重,wdi,j为第j个分词对第i个分词的距离子权重,wci,j为第j个分词对第i个分词的词性子权重。
30、所述影响权重具体为:
31、
32、其中:di,j为第j个分词对第i个分词的距离。
33、所述第j个分词对第i个分词的距离子权重为单调递减函数。
34、分词的词性包括名词、动词、形容词、数词和其他。
35、一种通信工程记录文件信息处理装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述的方法。
36、一种存储介质,其上存储有程序,所述程序被执行时实现如上述的方法。
37、与现有技术相比,本专利技术具有以下有益效果:
38、1、通过将原始语料文本生成多个原始语句,再对分词的词向量利用前后的分词的词向量进行修正,然后计算关键词并得到最后的结果,可以充分表达分词的语境义,从而提高对整体原始语句的语义处理结果,实现智能辅助评审。
39、2、先拆解为语句单元,再拼接为原始语句的方式,可以解决因ocr识别不准确导致的原始语句划分不准确的问题,从而提高语境义的准确率。
40、3、通过在影响权重中,结合分词的距离词性来综合确定,并且再距离过大时,只考虑距离,可以避免词性对语境义的干扰。
本文档来自技高网...【技术保护点】
1.一种通信工程记录文件信息处理方法,其特征在于,包括:
2.根据权利要求1所述的一种通信工程记录文件信息处理方法,其特征在于,所述基于原始语料文本进行分句处理得到多个原始语句,包括:
3.根据权利要求1所述的一种通信工程记录文件信息处理方法,其特征在于,所述计算前后两个语句单元的融合向量的相似度,并基于计算得到的相似度将语句单元进行组合,得到原始语句,包括:
4.根据权利要求1所述的一种通信工程记录文件信息处理方法,其特征在于,所述对原始语句进行处理得到多个词向量的过程采用Word2Vec。
5.根据权利要求1所述的一种通信工程记录文件信息处理方法,其特征在于,所述影响权重为:
6.根据权利要求5所述的一种通信工程记录文件信息处理方法,其特征在于,所述影响权重具体为:
7.根据权利要求5或6所述的一种通信工程记录文件信息处理方法,其特征在于,所述第j个分词对第i个分词的距离子权重为单调递减函数。
8.根据权利要求5或6所述的一种通信工程记录文件信息处理方法,其特征在于,分词的词性包括名词、动词、
9.一种通信工程记录文件信息处理装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的方法。
...【技术特征摘要】
1.一种通信工程记录文件信息处理方法,其特征在于,包括:
2.根据权利要求1所述的一种通信工程记录文件信息处理方法,其特征在于,所述基于原始语料文本进行分句处理得到多个原始语句,包括:
3.根据权利要求1所述的一种通信工程记录文件信息处理方法,其特征在于,所述计算前后两个语句单元的融合向量的相似度,并基于计算得到的相似度将语句单元进行组合,得到原始语句,包括:
4.根据权利要求1所述的一种通信工程记录文件信息处理方法,其特征在于,所述对原始语句进行处理得到多个词向量的过程采用word2vec。
5.根据权利要求1所述的一种通信工程记录文件信息处理方法,其特征在于,所述影响权重为:
6.根...
【专利技术属性】
技术研发人员:潘晓亮,张辉,邹洪,汤延俊,向飞,严静浩,
申请(专利权)人:上海信产管理咨询有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。