主题集成服务重复材料发现方法、系统、设备和存储介质技术方案

技术编号:35660405 阅读:24 留言:0更新日期:2022-11-19 16:58
本发明专利技术公开了一种主题集成服务重复材料发现方法、系统、设备和存储介质,涉及信息处理领域。所述方法包括:获取主题集成服务的文件材料的材料名称和文本信息;基于特征提取器进行提取材料名称和文本信息的全局语义信息特征;根据逻辑回归算法进行处理所述的全局语义信息特征,判断是否为重复材料。该方法能够提高工作效率,降低重复材料评估的错误率。降低重复材料评估的错误率。降低重复材料评估的错误率。

【技术实现步骤摘要】
主题集成服务重复材料发现方法、系统、设备和存储介质


[0001]本专利技术涉及信息处理领域,尤其涉及一种主题集成服务重复材料发现方法、系统、设备和存储介质。

技术介绍

[0002]目前政务服务都是集中办理,并采用政务服务线上线下集成融合的方式,进而达到不断提升政府服务效能的效果。主要方法是将多个部门处理的事务集中到一起搜集材料并进行处理,进而简化处理流程,这加快了数字政府主题集成服务系统的建设与完善。
[0003]然而,目前主题集成服务系统的材料合并阶段普遍使用政务一体化平台的材料合并,合并的方法是如果发现材料名称相同则去重,同时提供了人工去重的方式进行材料合并。但是,现行去重方法效果并不好:无法自动发现名称不同但实质相同的材料,如“房地产权属证明”和“经营场地房屋产权合法证明”;人工去重则面临工作量巨大,长时间重复性检查容易出现遗漏。且每一个单事项都有自己的归属部门与办理材料。其中包含多种类似申请人身份证明材料、身份证或护照不同材料名称命名的同一种材料。材料名称的重复比较并不可靠,且主题服务涉及政务服务多个层次,事项众多,平均每个事项接近百种材料,费时费力且容易遗漏重复材料。
[0004]因此,急需一种简化事件材料的方法提高工作人员办公效率,简化公众办事流程。

技术实现思路

[0005]本专利技术解决了急需一种简化事件材料的方法提高工作人员办公效率,简化公众办事流程的问题。
[0006]本专利技术提供一种主题集成服务重复材料发现方法,所述方法包括:获取主题集成服务的文件材料的材料名称和文本信息;基于特征提取器进行提取材料名称和文本信息的全局语义信息特征;根据逻辑回归算法进行处理所述全局语义信息特征,判断是否为重复材料。
[0007]进一步的,所述基于特征提取器进行提取材料名称和文本信息的全局语义信息特征,具体为:去除文件材料的材料名称和文本信息的地域名称与特殊符号,获取处理后的文本信息;添加标志位cls至BERT模型的分字模块,将两个文件材料的处理后的文本信息拼接为拼接文本信息,并利用BERT模型的分字模块进行分字处理所述拼接文本信息,获取全局语义信息特征,其中,所述拼接文本信息包括第i个材料x
i
和第j个材料x
j
的处理后的文本信息,所述全局语义信息特征包括所述拼接文本信息的一维特征向量,i≥1,j≥1,且i≠j :
,其中,代表12层结构一致transfromer编码嵌入向量,[0]代表第一个维度向量。
[0008]进一步的,所述根据逻辑回归算法进行分类处理所述的全局语义信息特征,判断是否为重复材料,包括文本信息相似度概率的计算,并根据文本信息相似度概率判断是否为重复材料,其中文本信息相似度概率的计算具体为:,其中,exp是以自然常数e为底的指数函数,为算法权重向量,P为文本信息相似度概率。
[0009]进一步的,所述根据逻辑回归算法进行分类处理所述全局语义信息特征,判断是否为重复材料,还包括主动学习方法,具体为:设置文本信息相似度概率阈值,所述文本信息相似度概率阈值包括0.8和0.2;所述文本信息相似度概率大于或等于0.8为重复材料;所述文本信息相似度概率小于或等于0.2为非重复材料;文本信息相似度概率阈值小于0.8大于0.2的材料为错误分类,所述错误分类的材料进行重新训练。
[0010]进一步的,所述重新训练包括:通过机器学习的方法获取错误分类的材料;人工标注所述错误分类的材料数据的是否重复标签,并将所述错误分类的数据进行重新微调学习,具体为:调整预训练权重和逻辑回归算法,使用交叉熵作为损失函数L,权重更新使用Adam梯度下降法:。
[0011]其中,y为人工标注的两个材料的是否重复标签,为分类模型预测值,L衡量模型预测值与实际值的差距程度。
[0012]进一步的,所述方法还包括:将构成主题集成服务文件材料做并集,以表示主题集成服务文件材料的并集,n为材料的总数;在所述n个材料中任意选取两个材料,合成一组,判断两个材料是否重复:;其中,0表示两个材料不重复,1表示材料重复;提取f()=1的所有材料组合进行输出,删除所述组合中的任意一份材料x
i
或x
j
,x
i
代表第i个材料,x
j
代表第j个材料。
[0013]本专利技术还提供一种主题集成服务重复材料发现系统,所述系统包括:材料名称和文本信息获取单元,用于获取主题集成服务的文件材料的材料名称和文本信息;全局语义信息特征获取单元,用于基于特征提取器进行提取材料名称和文本信息的全局语义信息特征;重复材料判断单元,用于根据逻辑回归算法进行分类处理所述全局语义信息特征,判断是否为重复材料。
[0014]进一步,所述全局语义信息特征获取单元包括:处理后的文本信息获取模块,用于去除文件材料的材料名称和文本信息的地域名称与特殊符号,获取处理后的文本信息;全局语义信息特征获取模块,用于添加标志位cls至BERT模型的分字模块,将两个文件材料的处理后的文本信息拼接为拼接文本信息,并利用BERT模型的分字模块进行分字处理所述拼接文本信息,获取全局语义信息特征,其中,所述拼接文本信息包括第i个材料x
i
和第j个材料x
j
的处理后的文本信息,所述全局语义信息特征包括所述拼接文本信息的一维特征向量,i≥1,j≥1,且i≠j:,其中,代表12层结构一致transfromer编码嵌入向量,[0]代表第一个维度向量。
[0015]本专利技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据上述任一项中所述的主题集成服务重复材料发现方法。
[0016]本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行上述所述的主题集成服务重复材料发现方法。
[0017]本专利技术的有益之处在于:本专利技术解决了急需一种简化事件材料的方法提高工作人员办公效率,简化公众办事流程的问题。
[0018]1、本专利技术所述的主题集成服务重复材料发现方法,减少人工匹配和核查时间,减轻人力资源的同时提高工作效率,根据阈值,降低重复材料评估的错误率,进一步的可通过本专利技术所述的主题集成服务重复材料发现方法,形成联办事项材料清单,简化公众办事流程。
[0019]2、使用BERT模型提取材料的特征向量,通过逻辑回归模型计算重复概率进行分类。引入基于TONE的主动学习机制,降低了人工标注数据的需求量。使用此方法能够智能检测所有主题集成服务材料,发现重复材料,提升服务质量。
[0020]3、针对主题集成服务的材料,提取材料名称与文本内容通过特征提取器提取语义特征向量,送入分类器中判断是否为重复材料,通过决策阈值θ对分类得分进行判定是否正确分类,如正确分类输出结果,如果分类错误,则需要请求专业人员对材料对进行评定加以
标注输出标注数据,同时通过训练器使用TONE本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.主题集成服务重复材料发现方法,其特征在于,所述方法包括:获取主题集成服务的文件材料的材料名称和文本信息;基于特征提取器进行提取材料名称和文本信息的全局语义信息特征;根据逻辑回归算法进行处理所述全局语义信息特征,判断是否为重复材料。2.根据权利要求1所述的主题集成服务重复材料发现方法,其特征在于,所述基于特征提取器进行提取材料名称和文本信息的全局语义信息特征,具体为:去除文件材料的材料名称和文本信息的地域名称与特殊符号,获取处理后的文本信息;添加标志位cls至BERT模型的分字模块,将两个文件材料的处理后的文本信息拼接为拼接文本信息,并利用BERT模型的分字模块进行分字处理所述拼接文本信息,获取全局语义信息特征,其中,所述拼接文本信息包括第i个材料x
i
和第j个材料x
j
的处理后的文本信息,所述全局语义信息特征包括所述拼接文本信息的一维特征向量,i≥1,j≥1,且i≠j:,其中,代表12层结构一致transfromer编码嵌入向量,[0]代表第一个维度向量。3.根据权利要求2所述的主题集成服务重复材料发现方法,其特征在于,所述根据逻辑回归算法进行分类处理所述的全局语义信息特征,判断是否为重复材料,包括文本信息相似度概率的计算,并根据文本信息相似度概率判断是否为重复材料,其中文本信息相似度概率的计算具体为:,其中,exp是以自然常数e为底的指数函数,为算法权重向量,P为文本信息相似度概率。4.根据权利要求3所述的主题集成服务重复材料发现方法,其特征在于,所述根据逻辑回归算法进行分类处理所述全局语义信息特征,判断是否为重复材料,还包括主动学习方法,具体为:设置文本信息相似度概率阈值,所述文本信息相似度概率阈值包括0.8和0.2;所述文本信息相似度概率大于或等于0.8为重复材料;所述文本信息相似度概率小于或等于0.2为非重复材料;文本信息相似度概率小于0.8大于0.2的材料为错误分类,所述错误分类的材料进行重新训练。5.根据权利要求4所述的主题集成服务重复材料发现方法,其特征在于,所述重新训练包括:通过机器学习的方法获取错误分类的材料;人工标注所述错误分类的材料数据的是否重复标签,并将所述错误分类的数据进行重
新微调学习,具体为:调整预训练权重和逻辑回归算法,使用交叉熵作为损失函数L,权重更新使用Adam梯度下降法:,其中,y为人工标注的两个材料的是否重...

【专利技术属性】
技术研发人员:齐浩亮苗晓刚韩咏孔蕾蕾韩中元曹霞
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1