System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于语义分析的业务识别系统技术方案_技高网

一种基于语义分析的业务识别系统技术方案

技术编号:42421550 阅读:12 留言:0更新日期:2024-08-16 16:37
本发明专利技术公开了一种基于语义分析的业务识别系统,包括检索文本预处理模块、专利文本分类分析模块、检索结果推荐模块,其中检索文本预处理模块用于对专利文本进行预处理;专利文本分类分析模块用于进行专利文本的分类分析;检索结果推荐模块用于输出检索对比结果的推荐,以及该系统运行的方法:通过对用户检索的专利文本进行预处理,提取关键词生成检索词集和扩展词集,然后基于量化后得到的关键词向量表,利用文本编码对字符级、词级、句子级的关系特征进行泛化;并进行专利文本的分类分析,获取显著特征;最后输出检索对比结果的推荐;提高基于检索内容进行语义分析的检索准确性,本发明专利技术,具有提高语义关联表达效果和检索正确性的特点。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体为一种基于语义分析的业务识别系统


技术介绍

1、专利检索是一项复杂的工作,语义检索可以在一定程度上辅助专业检索员,提升工作效能,与此同时,语义检索对广大企业ipr来说,在检索能力、数据库资源与专业检索员存在一定差距的情况下,可以通过语义检索工具来缩小上述差距,从而更好地提升企业专利创新度,虽然都能获取对比文件,但不同的语义检索系统无论在相关度的判定、对比文件获取数量和位置都有很大的不同,这些不同最终导致语义词的选取会影响语义解读效果,语义算法对语义词的解读偏差会带偏检索结果,即在不同的领域,同样的词语所表达的意思可能会完全不同、也可能侧重不同,在用户实际检索的过程中发现,有时语义检索系统对语义词的解读结果会和我们日常认知的有所不同,这种解读偏差就会导致用户并不能根据输入的文本正确找到真正想要搜索的专利,存在基于检索内容进行语义分析的检索准确性较低,带来的体验感并不理想。因此,设计提高语义关联表达效果和检索正确性的一种基于语义分析的业务识别系统是很有必要的。


技术实现思路

1、本专利技术的目的在于提供一种基于语义分析的业务识别系统,以解决上述
技术介绍
中提出的问题。

2、为了解决上述技术问题,本专利技术提供如下技术方案:一种基于语义分析的业务识别系统,包括检索文本预处理模块、专利文本分类分析模块、检索结果推荐模块,其特征在于:所述检索文本预处理模块,用于对用户检索的专利文本进行预处理;所述专利文本分类分析模块,用于针对生成的检索词集和扩展的扩展词集进行专利文本的分类分析;所述检索结果推荐模块,用于利用相似度匹配值计算专利文本间的关联强度,输出检索对比结果的推荐。

3、根据上述技术方案,所述检索文本预处理模块包括:检索式生成模块、词向量获取模块、无向图构建模块;所述检索式生成模块,用于利用获取的检索关键词自动智能生成标准检索式;所述词向量获取模块,用于通过bert训练获得词向量;所述无向图构建模块,用于根据量化后得到的关键词向量表构建一个基于关键词的无向图。

4、根据上述技术方案,所述专利文本分类分析模块包括:关系特征泛化模块、领域本体构建模块、卷积神经网络训练模块、相似度匹配值计算模块,所述关系特征泛化模块,用于利用文本编码对字符级、词级、句子级的关系特征进行泛化;所述领域本体构建模块,用于采用字符串匹配的方式进行该主题概念的抽取,将符合的字符串作为概念节点构建领域本体;所述卷积神经网络训练模块,用于利用字符级卷积神经网络将预处理后的训练集词向量输入卷积神经网络中进行训练;所述相似度匹配值计算模块,用于确定两个文档之间的相似关系并计算获得度量专利文本的相似度匹配值。

5、根据上述技术方案,所述检索结果推荐模块包括:关联强度计算模块、相关性评分计算模块、检索结果排序输出模块,所述关联强度计算模块,用于利用相似度匹配值计算专利文本间的关联强度;所述相关性评分计算模块,用于综合计算出每个推荐专利中的相关性评分;所述检索结果排序输出模块,用于结合两次相关性评分得到最终的排序结果,进行排序推荐。

6、根据上述技术方案,所述业务识别系统运行的方法步骤,包括:

7、步骤一:对用户检索的专利文本进行预处理,提取关键词生成检索词集和扩展词集;

8、步骤二:基于量化后得到的关键词向量表,利用文本编码对字符级、词级、句子级的关系特征进行泛化;

9、步骤三:针对生成的检索词集和扩展的扩展词集进行专利文本的分类分析,获取显著特征;

10、步骤四:利用相似度匹配值计算专利文本间的关联强度,输出检索对比结果的推荐。

11、根据上述技术方案,所述对用户检索的专利文本进行预处理,提取关键词生成检索词集和扩展词集的实施方式包括:

12、步骤11:获取用户输入的检索关键词及检索方式,即利用获取的检索关键词自动智能生成标准检索式;

13、步骤12:对检索的专利文本数据进行数据预处理,提取关键词生成检索词集,利用检索词集通过关键词网络进行检索扩展获得扩展词集,并通过bert训练获得词向量;

14、步骤13:根据量化后得到的关键词向量表构建一个基于关键词的无向图,表示关键词与词之间的关系,利用预处理后的词向量构建专利文本关键词网络。

15、根据上述技术方案,所述进行泛化的过程步骤包括:

16、步骤21:专利文本数据包含多种信息类型,包括专利内容,引用关系和时间顺序,根据包含的信息类型信息构成专利文本之间的关系特征,

17、步骤22:根据量化后得到的关键词向量表确定专利文本的领域主题;

18、步骤23:采用字符串匹配的方式进行该主题概念的抽取,将符合的字符串作为概念节点构建领域本体;

19、步骤24:利用自然语言处理的方法从待检索的非结构化专利文本中提取概念,进行概念检索;

20、步骤25:通过相关度方法计算对概念进行筛选,获取概念以及概念之间的关系;

21、步骤26:最后利用bert获得专利文本特征,在提取匹配信息时使用rnn对上专利文本下文进行编码,利用卷积网络提取词项之间的依赖关系,形成基于量化后的字符级、词级、句子级间关系特征。

22、根据上述技术方案,所述进行专利文本的分类分析步骤,包括:

23、步骤31:利用字符级卷积神经网络将预处理后的训练集词向量输入卷积神经网络中进行训练,提取输出训练集的专利文本特征;

24、步骤32:通过softmax分类器进行分类;

25、步骤33:再利用卷积神经网络中的卷积滤波器对输入的文本特征进行卷积,获得文本特征,提取出专利文本的局部特征;

26、步骤34:利用卷积神经网络对设置不同长度的卷积核,将词向量和卷积公式做乘积,做最大值池化将卷积层结果中输出的最大值作为最显著的特征;

27、步骤35:通过文本卷积神经网络将查询的专利文本和相关的专利文件分别作为模型的输入,得到两个相同维度的中间向量,确定两个文档之间的相似关系并计算获得度量专利文本的相似度匹配值。

28、根据上述技术方案,所述进行检索对比结果的推荐的过程步骤,包括:

29、步骤41:利用语义相似度和引用关联定义专利间的技术关联及技术重叠度;

30、步骤42:利用相似度匹配值计算专利文本间的关联强度,专利文本间的相似度越高,之间的关联越强;

31、步骤43:通过相似度匹配值获取候选推荐专利中涉及的技术关键词,然后根据用户在检索时输入的检索关键词,综合计算出每个推荐专利中的相关性评分,并将其作为一次评分,依据此次评分并行的从多个分片中取出候选结果;

32、步骤44:根据获取到含有技术关键词的句子,将其放入检索系统中进行检索,取出相关性评分前n项的专利作为候选推荐专利,取出候选专利的权利要求书中的每一项主权利要求与做含有技术关键词的对比文件做相似度比较;

33、步骤4本文档来自技高网...

【技术保护点】

1.一种基于语义分析的业务识别系统,包括检索文本预处理模块、专利文本分类分析模块、检索结果推荐模块,其特征在于:所述检索文本预处理模块,用于对用户检索的专利文本进行预处理;所述专利文本分类分析模块,用于针对生成的检索词集和扩展的扩展词集进行专利文本的分类分析;所述检索结果推荐模块,用于利用相似度匹配值计算专利文本间的关联强度,输出检索对比结果的推荐。

2.根据权利要求1所述的一种基于语义分析的业务识别系统,其特征在于:所述检索文本预处理模块包括:检索式生成模块、词向量获取模块、无向图构建模块;所述检索式生成模块,用于利用获取的检索关键词自动智能生成标准检索式;所述词向量获取模块,用于通过BERT训练获得词向量;所述无向图构建模块,用于根据量化后得到的关键词向量表构建一个基于关键词的无向图。

3.根据权利要求2所述的一种基于语义分析的业务识别系统,其特征在于:所述专利文本分类分析模块包括:关系特征泛化模块、领域本体构建模块、卷积神经网络训练模块、相似度匹配值计算模块,所述关系特征泛化模块,用于利用文本编码对字符级、词级、句子级的关系特征进行泛化;所述领域本体构建模块,用于采用字符串匹配的方式进行该主题概念的抽取,将符合的字符串作为概念节点构建领域本体;所述卷积神经网络训练模块,用于利用字符级卷积神经网络将预处理后的训练集词向量输入卷积神经网络中进行训练;所述相似度匹配值计算模块,用于确定两个文档之间的相似关系并计算获得度量专利文本的相似度匹配值。

4.根据权利要求3所述的一种基于语义分析的业务识别系统,其特征在于:所述检索结果推荐模块包括:关联强度计算模块、相关性评分计算模块、检索结果排序输出模块,所述关联强度计算模块,用于利用相似度匹配值计算专利文本间的关联强度;所述相关性评分计算模块,用于综合计算出每个推荐专利中的相关性评分;所述检索结果排序输出模块,用于结合两次相关性评分得到最终的排序结果,进行排序推荐。

5.根据权利要求4所述的一种基于语义分析的业务识别系统,其特征在于:所述业务识别系统运行的方法步骤,包括:

6.根据权利要求5所述的一种基于语义分析的业务识别系统,其特征在于:所述对用户检索的专利文本进行预处理,提取关键词生成检索词集和扩展词集的实施方式包括:

7.根据权利要求6所述的一种基于语义分析的业务识别系统,其特征在于:所述进行泛化的过程步骤包括:

8.根据权利要求7所述的一种基于语义分析的业务识别系统,其特征在于:所述进行专利文本的分类分析步骤,包括:

9.根据权利要求8所述的一种基于语义分析的业务识别系统,其特征在于:所述进行检索对比结果的推荐的过程步骤,包括:

...

【技术特征摘要】

1.一种基于语义分析的业务识别系统,包括检索文本预处理模块、专利文本分类分析模块、检索结果推荐模块,其特征在于:所述检索文本预处理模块,用于对用户检索的专利文本进行预处理;所述专利文本分类分析模块,用于针对生成的检索词集和扩展的扩展词集进行专利文本的分类分析;所述检索结果推荐模块,用于利用相似度匹配值计算专利文本间的关联强度,输出检索对比结果的推荐。

2.根据权利要求1所述的一种基于语义分析的业务识别系统,其特征在于:所述检索文本预处理模块包括:检索式生成模块、词向量获取模块、无向图构建模块;所述检索式生成模块,用于利用获取的检索关键词自动智能生成标准检索式;所述词向量获取模块,用于通过bert训练获得词向量;所述无向图构建模块,用于根据量化后得到的关键词向量表构建一个基于关键词的无向图。

3.根据权利要求2所述的一种基于语义分析的业务识别系统,其特征在于:所述专利文本分类分析模块包括:关系特征泛化模块、领域本体构建模块、卷积神经网络训练模块、相似度匹配值计算模块,所述关系特征泛化模块,用于利用文本编码对字符级、词级、句子级的关系特征进行泛化;所述领域本体构建模块,用于采用字符串匹配的方式进行该主题概念的抽取,将符合的字符串作为概念节点构建领域本体;所述卷积神经网络训练模块,用于利用字符级卷积神经网络将预处理后的训练...

【专利技术属性】
技术研发人员:许倩倩
申请(专利权)人:苏州轻悦信息科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1