本发明专利技术公开了一种融合正则表达式的金融文本关系抽取与分类方法。该方法对金融文本编码后识别出文本中包含的关系实体对并进行标记;将金融文本依次和各项正则表达式进行匹配,将匹配结果转换为正则表达式标签,最后将该标签与标记结果融合,通过深度神经网络对实体对之间包含的关系进行抽取与分类。本发明专利技术实现了融合了正则表达式信息的金融文本端到端关系抽取与分类,逻辑结构清晰,层次分明,无需人工标注,节约了人力成本,提升了工作效率,准确率高,实用性强。实用性强。实用性强。
【技术实现步骤摘要】
一种融合正则表达式的金融文本关系抽取与分类方法
[0001]本专利技术属于自然语言处理与金融的交叉领域,特别涉及一种融合正则表达式的金融文本关系抽取与分类方法。
技术介绍
[0002]自然语言处理等技术的创新与发展,极大的提高了金融行业的科技生产力。从金融新闻和公告等文本中自动抽取重大金融事件关系并进行分类,能有效节省从业人员的人力成本,显著提高工作效率。
[0003]目前已知金融领域的文本关系抽取与分类技术,存在下列不足:1)现有金融文本的关系抽取方法需要事先对金融文本进行人工标注,再进行关系分类,而实际场景中原始金融文本都是无标注的,使得这些方法在实际中的应用受到很大限制;2)现有基于深度神经网络进行金融领域关系抽取的方法不能有效利用符合人类逻辑的规则信息,无法捕获到金融文本中的一些重要特征,影响了关系抽取的准确性。
技术实现思路
[0004]针对现有技术不足,本专利技术提出一种融合正则表达式的金融文本关系抽取与分类方法。本专利技术方法依靠有逻辑的先验知识,融合正则表达式信息,提升了金融文本关系分类的准确率。
[0005]本专利技术解决其技术问题所采用的技术方案是:一种融合正则表达式的金融文本关系抽取与分类方法,该方法于金融文本关系抽取过程按如下步骤进行:(1)将金融文本库中的金融文本进行编码,将金融文本中的每个词都转换为词向量,通过深度神经网络对各个词向量进行标注,识别出金融文本中包含的关系实体对,对该关系实体对进行标记,得到标注结果;(2)将金融文本依次和正则表达式数据库中的各项正则表达式进行匹配,将匹配结果转换为该金融文本的正则表达式标签,将步骤(1)得到的关系实体对标注结果输入双向长短期记忆网络,提取特征;(3)将步骤(2)得到的正则表达式标签与步骤(2)得到的双向长短期记忆网络的输出特征进行拼接,通过深度神经网络完成金融文本关系分类,并通过查询关系类型索引C对应的关系类型,得到最终的金融文本关系抽取结果。
[0006]进一步地,所述步骤(1)具体过程如下:(1.1)从金融文本库中取出一个金融文本S,将其进行分词,得到以词为单位进行表示的金融文本:其中,s代表金融文本分好的词,n为总词数;(1.2)使用Embedding映射方法将分好词的金融文本S映射为高维词向量集合E:
所述高维词向量集合,其中代表金融文本中各词s对应的词向量;(1.3)将词向量集合通过由BERT、全连接神经网络FC1、条件随机场CRF组成的深度神经网络得到实体对标注结果L:。
[0007]进一步地,步骤(2)具体过程如下:(2.1)将金融文本与正则表达式库中的正则表达式依次匹配,匹配成功后,将匹配结果转换为一个由0,1组成的向量,该向量即为正则表达式标签RElabel;(2.2)将所述正则表达式标签作为一个全连接神经网络的输入,经过该全连接神经网络后转换得到正则表达式特征,将正则表达式特征融入深度神经网络:其中,REfeature代表得到的正则表达式特征,FC2代表该模块中用于将正则表达式标签转换为正则表达式特征的全连接神经网络;(2.3)步骤(1.3)得到的标注结果L输入双向长短期记忆网络中,得到从标注结果中提取的特征:其中为双向长短期记忆网络的输出。
[0008]进一步地,步骤(3)具体过程如下:(3.1)将双向长短期记忆网络输出特征和正则表达式特征进行拼接,得到总体特征:;(3.2)将总体特征送入注意力层,得到注意力层的输出,具体计算过程如下:其中,tanh为tanh激活函数,softmax为softmax函数,是可训练的参数向量,代表其转置,T是文本长度;(3.3)将注意力层的输出输入全连接分类网络并经过softmax运算后便可得到各关系类型的分类概率,取概率最大值对应的类别作为分类结果,具体运算过程如下:各关系类型的分类概率,取概率最大值对应的类别作为分类结果,具体运算过程如下:其中,FC3代表全连接分类网络,代表各关系类型的分类概率,m为关系类别数,argmax代表取最大值对应的关系类型索引的函数,C代表得到的关系类型索引值;(3.4)通过查询关系类型索引值C对应的关系类型,得到金融关系抽取结果。
[0009]本专利技术的技术构思为:将金融文本库中的文本进行编码,将文本中的每个词都转换为词向量,然后将编码得到的特征利用深度神经网络对各个词向量进行标注,识别出文
本中包含的关系实体对,并对实体进行标记;将金融文本依次和正则表达式库中的各项正则表达式进行匹配,将匹配结果转换为该金融文本的正则表达式标签,并将该标签与关系实体抽取的结果进行结合,通过深度神经网络对两个关系实体之间包含的关系进行分类。
[0010]本专利技术的有益效果主要表现在:1、无需人工标注便可获得关系实体对以及关系类别,这种端到端的关系抽取形式实用性强,应用价值高; 2、融合正则表达式信息,能够捕获到规则特征,提高抽取与分类性能,满足应用场景中对于关系抽取与分类准确率高的需求;3、成功识别实体对并标注,形成大量有标注金融文本,为其它需要有标注文本的关系抽取系统或者其他它用于金融文本的自然语言处理技术提供了宝贵的数据资源。
附图说明
[0011]图1是本专利技术所提出的关系实体抽取示意图;图2是本专利技术所提出的关系分类示意图。
具体实施方式
[0012]下面结合本专利技术实施例的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0013]本专利技术提出一种融合正则表达式的金融文本关系抽取与分类方法,图1为本专利技术所提出的关系实体抽取示意图,图2为本专利技术所提出的关系分类示意图,具体包括以下实施步骤:(1)将金融文本库中的金融文本进行编码,将金融文本中的每个词都转换为词向量,通过深度神经网络对各个词向量进行标注,识别出金融文本中包含的关系实体对,对每个关系实体对进行标记;所述金融文本库中存储的金融文本是包含了某种金融关系的句子。
[0014]具体包括以下子步骤:(1.1)从金融文本库中取出一个金融文本,将其进行分词,得到以词为单位进行表示的金融文本S:。
[0015]其中s代表分好的词,n为总词数。比如令,经过分词后将其变为,,那么n=9,分好的各个词就分别对应。
[0016](1.2)使用Embedding映射方法将分好词的金融文本S映射为高维词向量集合E:。
[0017]所述高维词向量集合,本例中n=9,其中代表金融文本中各词s对应的词向量。
[0018](1.3)将词向量集合通过由图1中所示的一个双向Transformer组成的编码器BERT(Bidirectional Encoder Representations from Transformers,BERT)、全连接神经网络(Fully Connected neural network,FC)、条件随机场(Conditional Random Field,CRF)组成的深度神经网络得到实体对标注结果L:
。
[0019]其中,为标注结果所述代表不是关系实体,比如“昨天”、“收购”、“三成本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种融合正则表达式的金融文本关系抽取与分类方法,其特征在于,包括以下步骤:(1)将金融文本库中的金融文本进行编码,将金融文本中的每个词都转换为词向量,通过深度神经网络对各个词向量进行标注,识别出金融文本中包含的关系实体对,对该关系实体对进行标记,得到标注结果;(2)将金融文本依次和正则表达式数据库中的各项正则表达式进行匹配,将匹配结果转换为该金融文本的正则表达式标签,将步骤(1)得到的对标注结果输入双向长短期记忆网络,所述双向长短期记忆网络输出特征;(3)将步骤(2)得到的正则表达式标签与双向长短期记忆网络的输出特征进行拼接,通过深度神经网络完成金融文本关系分类,并通过查询关系类型索引C对应的关系类型,得到最终的金融文本关系抽取结果。2.如权利要求1所述的一种融合正则表达式的金融文本关系抽取与分类方法,其特征在于,所述步骤(1)具体过程如下:(1.1)从金融文本库中取出一个金融文本,将其进行分词,得到以词为单位进行表示的金融文本S:其中,s代表金融文本分好的词,n为总词数;(1.2)使用Embedding映射方法将分好词的金融文本S映射为高维词向量集合E:所述高维词向量集合,其中代表金融文本中各词s对应的词向量;(1.3)将词向量集合通过由BERT、全连接神经网络FC1、条件随机场CRF组成的深度神经网络得到实体对标注结果L:。3.如权利要求2所述一种融合正则表达式的金融文本关系抽取与分类方法,其特征在于,步骤(2)具体过程如下:(2.1)将金融文本S与正则表达式库中的正则表达式依次匹...
【专利技术属性】
技术研发人员:王海涛,刘昭然,许浩,周丹,焦旭,马雪环,王天放,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。