一种生成信创产业研究报告的方法、装置和设备及平台制造方法及图纸

技术编号:37460787 阅读:18 留言:0更新日期:2023-05-06 09:33
本发明专利技术公开了一种生成信创产业研究报告的方法、装置和设备及平台,属于数据处理领域;本申请方案将文本中的词通过词表转换得到词向量,然后根据词向量得到第一目标词;在文本中词不在预设词表时,计算该词的语义值,由于语义值表示该词在句子中的语义重要程度,因此当语义值大于或等于预设语义值时,表示该词较为重要,生成摘要时,需要保留该词。这样在出现不在词表中的词时,在生成摘要时能够保留原文本中的重要的词,避免根据摘要生成的信创产业研究报告存在缺失的问题,提高了用户体验。提高了用户体验。提高了用户体验。

【技术实现步骤摘要】
一种生成信创产业研究报告的方法、装置和设备及平台


[0001]本专利技术涉及数据处理领域,特别地,涉及一种生成信创产业研究报告的方法、装置和设备及平台。

技术介绍

[0002]信创,即信息技术应用创新产业,它是数据安全、网络安全的基础,也是新基建的重要组成部分,在信创行业涉及领域较广,包括操作系统、数据库、中间件等基础软件以及打印机、外设等硬件;涉及知识较多,包括标准规范、迁移适配、研发测试等知识;对于信创从业者,很难快速的获取想要的信创知识,目前市面上缺少一个面向信创从业者的信创知识库公共平台,为信创从业者提供信创经验知识,进行应用研发、迁移适配,深入掌握和了解信创技术。
[0003]关于知识库的研究很多,但是目前市面上还没有一种针对信创知识推出的知识库公共平台,为信创从业者提供信创经验知识。此外,现有知识库中,中文文本摘要模型性能较差,这样在生成信创产业研究报告时容易丢失某些重要词,影响用户体验。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供一种生成信创产业研究报告的方法、装置和设备及平台,以解决现有知识库中,中文文本摘要模型性能较差,这样在生成信创产业研究报告时容易丢失某些重要词,影响用户体验的问题。本专利技术解决其技术问题所采用的技术方案是:第一方面,提供一种生成信创产业研究报告的方法,包括以下步骤:获取待生成摘要的文本;若预设的词表中存在所述文本中的词,则将所述文本中的词根据预设词表转化得到词向量,并根据所述词向量得到第一目标词;若所述词表中不存在所述文本中的词,则获取所述词所在句子的句向量,将所述句向量和所述词输入到预训练的语义模型中,得到用于表征所述词在所述句子中的语义重要程度的语义值,所述句向量由所述句子中的词向量按顺序组成;当所述语义值大于或等于预设语义值时,则将所述词作为第二目标词;依据所述文本中词的顺序,将所述第二目标词插入所述第一目标词中生成所述文本的摘要;对所述摘要进行语义分析和标签识别得到分类结果;根据所述分类结果和时间段生成信创产业研究报告。
[0005]进一步地,所述根据所述词向量得到第一目标词包括:计算所述词向量与预设目标词库中任一目标词的第一相似度;将所述目标词库中第一相似度最大的目标词作为第一目标词;还包括:计算当前词向量与上一词向量的第二相似度,并获取所述上一词向量在目标词库
中对应的上一第一目标词;计算所述当前词向量与所述上一第一目标词的初始第一相似度,将所述初始第一相似度乘以所述第二相似度作为所述当前词向量与所述上一第一目标词的第一相似度;根据所述当前词向量与所述目标词库中所有目标词的第一相似度得到所述当前词向量对应的当前第一目标词。
[0006]进一步地,所述获取待生成摘要的文本,包括:使用网络爬虫技术在网络中选取信创领域的网络地址放入抓取队列;从所述抓取队列中依次取出网络地址进行解析,得到网页源码;根据所述网页源码抓取网页中的内容作为待生成摘要的文本。
[0007]进一步地,在获取待生成摘要的文本后还包括:若所述文本字数小于第一预设字数,则删除小于预设字数的文本;若所述文本字数大于第二预设字数,则将所文本切割为预设数量的文本;并删除所述文本中的表情符号,所述第二预设字数大于第一预设字数。
[0008]进一步地,还包括:将所述文本进行分句处理;对所述分句进行分词,以便于所述文本进行摘要生成。
[0009]进一步地,所述对所述分句进行分词,包括:对于每个分句,获取所述分句中任一单字与相邻的预设数量的单字在预设数据中出现的次数;若所述次数小于或等于预设次数,则将所述单字与相邻的预设数量的单字组成的连续字符不认为是一个词;若所述次数大于预设次数,则将所述单字与相邻的预设数量的单字组成的连续字符认为是一个词,并根据所述连续字符构成的词对所述分句进行分词。
[0010]进一步地,所述对所述摘要进行标签识别包括:采用网络爬虫技术,采集各类信创知识;将所述信创知识定义标签;所述标签包括主管部门、指导机构、法律法规、行业和产业,所述行业包括党政、金融、能源、电信、医疗、教育、应急、水利和交通,所述产业包括基础软件、基础硬件、应用软件、工控软件、信息安全、人工智能和半导体,所述基础软件包括操作系统、数据库、中间件和云平台,所述基础硬件包括存储、打印机和扫描仪,所述应用软件包括办公系统OA、电子公文、ERP和MES,所述工控软件包括PLC、SCADA和DCS;基于定义的标签对所述信创知识进行分类存储,以形成信创知识库;基于所述信创知识库训练得到分类模型;采用所述分类模型对所述摘要进行分类,得到所述摘要在所述信创知识库中对应的标签。
[0011]第二方面,提供一种生成信创产业研究报告的装置,包括:文本获取模块,用于获取待生成摘要的文本;第一目标词获取模块,用于若预设的词表中存在所述文本中的词,则将所述文本中的词根据预设词表转化得到词向量,并根据所述词向量得到第一目标词;第二目标词获取模块,用于若所述词表中不存在所述文本中的词,则获取所述词所在句子的句向量,将所述句向量和所述词输入到预训练的语义模型中,得到用于表征所
述词在所述句子中的语义重要程度的语义值,所述句向量由所述句子中的词向量按顺序组成;当所述语义值大于或等于预设语义值时,则将所述词作为第二目标词;摘要生成模块,用于依据所述文本中词的顺序,将所述第二目标词插入所述第一目标词中生成所述文本的摘要;摘要分类模块,用于对所述摘要进行语义分析和标签识别得到分类结果;信创产业研究报告生成模块,用于根据所述分类结果和时间段生成信创产业研究报告。
[0012]第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器被配置为用于执行第一方面技术方案中任一项所述的方法。
[0013]第四方面,提供一种信创知识库平台,采用第一方面技术方案中任一项所述的方法生成信创产业研究报告。
[0014]有益效果:本申请技术方案提供一种生成信创产业研究报告的方法、装置和设备及平台,在获取待生成摘要的文本后,将文本中的词通过词表转换得到词向量,然后根据词向量得到第一目标词;对于文本中不在词表中的词,根据语义模型得到该词的语义值。当语义值大于或等于预设语义值时,将该词作为第二目标词;之后依据文本中词的顺序,将第二目标词插入到第一目标词中以生成摘要。最后对摘要进行分类,并根据分类和时间段生成信创产业研究报告。本申请方案在文本中词不在预设词表时,计算该词的语义值,由于语义值表示该词在句子中的语义重要程度,因此当语义值大于或等于预设语义值时,表示该词较为重要,生成摘要时,需要保留该词。这样在出现不在词表中的词时,在生成摘要时能够保留原文本中的重要的词,避免根据摘要生成的信创产业研究报告存在缺失的问题,提高了用户体验。
附图说明
[0015]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成信创产业研究报告的方法,其特征在于,包括以下步骤:获取待生成摘要的文本;若预设的词表中存在所述文本中的词,则将所述文本中的词根据预设词表转化得到词向量,并根据所述词向量得到第一目标词;若所述词表中不存在所述文本中的词,则获取所述词所在句子的句向量,将所述句向量和所述词输入到预训练的语义模型中,得到用于表征所述词在所述句子中的语义重要程度的语义值,所述句向量由所述句子中的词向量按顺序组成;当所述语义值大于或等于预设语义值时,则将所述词作为第二目标词;依据所述文本中词的顺序,将所述第二目标词插入所述第一目标词中生成所述文本的摘要;对所述摘要进行语义分析和标签识别得到分类结果;根据所述分类结果和时间段生成信创产业研究报告。2.根据权利要求1所述的方法,其特征在于,所述根据所述词向量得到第一目标词包括:计算所述词向量与预设目标词库中任一目标词的第一相似度;将所述目标词库中第一相似度最大的目标词作为第一目标词;还包括:计算当前词向量与上一词向量的第二相似度,并获取所述上一词向量在目标词库中对应的上一第一目标词;计算所述当前词向量与所述上一第一目标词的初始第一相似度,将所述初始第一相似度乘以所述第二相似度作为所述当前词向量与所述上一第一目标词的第一相似度;根据所述当前词向量与所述目标词库中所有目标词的第一相似度得到所述当前词向量对应的当前第一目标词。3.根据权利要求1所述的方法,其特征在于:所述获取待生成摘要的文本,包括:使用网络爬虫技术在网络中选取信创领域的网络地址放入抓取队列;从所述抓取队列中依次取出网络地址进行解析,得到网页源码;根据所述网页源码抓取网页中的内容作为待生成摘要的文本。4.根据权利要求1所述的方法,其特征在于:在获取待生成摘要的文本后还包括:若所述文本字数小于第一预设字数,则删除小于预设字数的文本;若所述文本字数大于第二预设字数,则将所文本切割为预设数量的文本;并删除所述文本中的表情符号,所述第二预设字数大于第一预设字数。5.根据权利要求4所述的方法,其特征在于:还包括:将所述文本进行分句处理;对所述分句进行分词,以便于所述文本进行摘要生成。6.根据权利要求5所述的方法,其特征在于:所述对所述分句进行分词,包括:对于每个分句,获取所述分句中任一单字与相邻的预设数量的单字在预设数据中出现的次数;若所述次数小于或等于预设次...

【专利技术属性】
技术研发人员:杨家豪张洪明陈小鹏黄平王桂平
申请(专利权)人:北京太极信息系统技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1