面向金融知识图谱的关系抽取方法、装置及存储介质制造方法及图纸

技术编号:31701279 阅读:15 留言:0更新日期:2022-01-01 11:02
本申请公开了一种面向金融知识图谱的关系抽取方法、装置及存储介质,该方法包括:对每篇新闻资讯进行分词和词性标注,得到每篇新闻资讯对应的已知词性的单词列表;对每篇新闻资讯进行重要信息提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的重要单词列表;将每篇新闻资讯对应的重要单词列表中的重要单词进行两两组合形成关系对,得到每篇新闻资讯对应的关系对列表;根据每篇新闻资讯对应的关系对列表中每对关系对在多篇新闻资讯中共同出现的次数和预设过滤次数,抽取得到共同出现的次数大于或等于预设过滤次数的关系对。通过这种方式,能够全自动和无监督的抽取尽可能多的关系对,避免关系类型的局限和认知盲区的局限。知盲区的局限。知盲区的局限。

【技术实现步骤摘要】
面向金融知识图谱的关系抽取方法、装置及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种面向金融知识图谱的关系抽取方法、计算机装置及存储介质。

技术介绍

[0002]知识图谱是一种信息的结构化表示方式,将各个有意义的事务(实体) 之间的联系通过图的方式表示出来。知识图谱可以分为两种:一种是通用领域的知识图谱,它是通用知识的归纳;另一种则是垂直领域的知识图谱,这类知识图谱通常是在一定的产业或者行业背景下的应用。
[0003]关系抽取是知识图谱形成的基础,对于非结构化的文本数据,比如新闻、专利等,只有通过关系抽取,才能得到实体之间的关联关系。现有垂直领域的关系抽取算法,一方面大多基于人工标注数据,这样容易存在主观性,也耗费人力资源;另一方面预先定义好可能的实体关系类型,这样容易依赖先验知识;而且有些算法依赖于触发词,难以捕捉隐藏关系,例如,“张三今年42岁”,在缺乏触发词“年龄”的时候,不会识别出隐藏关系(张三,年龄,42岁)。

技术实现思路

[0004]基于此,本申请提供了一种面向金融知识图谱的关系抽取方法、计算机装置及存储介质。
[0005]第一方面,本申请提供了一种面向金融知识图谱的关系抽取方法,所述方法包括:
[0006]对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注,得到每篇新闻资讯对应的已知词性的单词列表;
[0007]对每篇新闻资讯进行重要信息提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的重要单词列表;
[0008]将每篇新闻资讯对应的重要单词列表中的重要单词进行两两组合形成关系对,得到每篇新闻资讯对应的关系对列表;
[0009]根据每篇新闻资讯对应的关系对列表中每对关系对在所述多篇新闻资讯中共同出现的次数和预设过滤次数,抽取得到共同出现的次数大于或等于所述预设过滤次数的关系对。
[0010]第二方面,本申请提供了一种计算机装置,所述计算机装置包括:存储器和处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序并在执行所述计算机程序时,实现如上所述的面向金融知识图谱的关系抽取方法。
[0011]第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上所述的面向金融知识图谱的关系抽取方法。
[0012]本申请实施例提供了一种面向金融知识图谱的关系抽取方法、装置及存储介质,
对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注,得到每篇新闻资讯对应的已知词性的单词列表;对每篇新闻资讯进行重要信息提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的重要单词列表;将每篇新闻资讯对应的重要单词列表中的重要单词进行两两组合形成关系对,得到每篇新闻资讯对应的关系对列表;根据每篇新闻资讯对应的关系对列表中每对关系对在所述多篇新闻资讯中共同出现的次数和预设过滤次数,抽取得到共同出现的次数大于或等于所述预设过滤次数的关系对。由于在得到每篇新闻资讯对应的已知词性的单词列表后,进行重要信息提取,从单词列表中提取到每篇新闻资讯对应的重要单词列表,重要单词列表中的单词是每篇新闻资讯的重要单词,对重要单词两两组合得到包括很多关系对的关系对列表,每一个关系对都是一个潜在的实体之间的关联关系,如果这个关系对在新闻资讯中经常共同出现,说明这个关系对很大可能具有关联关系,因此预先设置一个预设过滤次数,将共同出现的次数大于或等于所述预设过滤次数的关系对抽取出来,即可得到可能具有关联关系的关系对。如此,一方面整个过程完全是全自动和无监督的,在实现过程中不需要人工操作数据,不需要人工维护数据,能够避免主观性和耗费人力资源;另一方面能够挖掘出尽可能多的实体之间的关系,这种关系包括比较容易界定的关系类型,也包括不容易界定的关系类型,能够避免对实体之间的关系做类型限定的局限性,能够避开认知盲区和对触发词的依赖,能够为尽可能穷尽实体之间所有可能的关系类型提供技术支持,例如:缺乏触发词但实体之间具有隐藏关系,或者,一对实体之间可能存在两种或者两种以上的关系类型。
[0013]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0014]图1是本申请面向金融知识图谱的关系抽取方法一实施例的流程示意图;
[0015]图2是本申请面向金融知识图谱的关系抽取方法另一实施例的流程示意图;
[0016]图3是本申请面向金融知识图谱的关系抽取方法中一实施例抽取的关系对示意图;
[0017]图4是本申请计算机装置一实施例的结构示意图。
具体实施方式
[0018]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0020]参见图1,图1是本申请面向金融知识图谱的关系抽取方法一实施例的流程示意图。所述方法包括:
[0021]步骤S101:对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注,得到每篇新
闻资讯对应的已知词性的单词列表。
[0022]本实施例中的分词可以是指将连续的字符序列按照一定的规范重新组合成单独的词序列的过程。分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法又称机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(即识别出一个词)。基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。
[0023]文本理解的基本单位是单词,所以在使用文本之前,需要使用分词工具对文本进行切割,将文字序列切割成基础的单词单元,以便后续对文本的使用。
[0024]词性标注是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。通常词性可以分为动词、名词、副词、形容词、虚词、方向词等等。词性标注可以由机器学习算法完成。常见的词性标注的机器学习算法包括隐马尔可夫模型、最大熵马尔可夫模型、条件随机场等。
[0025]知识图谱表示的是有意义的实体之间的关系,要确定实体之间的关系,首先要进行实体识别,实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常实体识别的前提是分词和词性标注。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向金融知识图谱的关系抽取方法,其特征在于,所述方法包括:对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注,得到每篇新闻资讯对应的已知词性的单词列表;对每篇新闻资讯进行重要信息提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的重要单词列表;将每篇新闻资讯对应的重要单词列表中的重要单词进行两两组合形成关系对,得到每篇新闻资讯对应的关系对列表;根据每篇新闻资讯对应的关系对列表中每对关系对在所述多篇新闻资讯中共同出现的次数和预设过滤次数,抽取得到共同出现的次数大于或等于所述预设过滤次数的关系对。2.根据权利要求1所述的方法,其特征在于,所述对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注之前,还包括:获取已知的命名实体的名称集合;所述对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注,包括:基于所述名称集合,对多篇新闻资讯中的每篇新闻资讯进行分词和词性标注。3.根据权利要求2所述的方法,其特征在于,所述获取已知的命名实体的名称集合,包括:从券商或数据商提供的数据中获取已知的第一命名实体的名称集合,所述第一命名实体包括概念名称、行业名称以及产品名称中的至少一个;和/或,从已有的数据中提取股票可能存在的所有候选名称,将提取的可能存在的所有候选名称作为所述股票的候选名称集合;在新闻资讯中验证组合形式是否存在,所述组合形式为股票的候选名称和所述股票的股票代码的组合形式;若存在,则保留所述股票的候选名称,若不存在,则删除所述股票的候选名称,将保留下来的候选名称作为所述股票的名称集合;将所述第一命名实体的名称集合和/或所述股票的名称集合合并为所述已知的命名实体的名称集合。4.根据权利要求1所述的方法,其特征在于,所述对每篇新闻资讯进行重要信息提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的重要单词列表,包括:对每篇新闻资讯的正文进行关键词提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的关键词列表;将每篇新闻资讯对应的关键词列表作为每篇新闻资讯对应的重要单词列表。5.根据权利要求4所述的方法,其特征在于,所述对每篇新闻资讯的正文进行关键词提取,从每篇新闻资讯对应的单词列表中提取得到每篇新闻资讯对应的关键词列表,包括:对每篇新闻资讯的正文进行关键词提取,从每篇新闻资讯对应的单词列表中提取得到每篇新...

【专利技术属性】
技术研发人员:邱念刘毅丁茂
申请(专利权)人:佳兆业投资咨询深圳有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1