一种基于层级多标签分类的金融事件检测方法、设备技术

技术编号:28978638 阅读:42 留言:0更新日期:2021-06-23 09:24
本发明专利技术提供了一种基于层级多标签分类的金融事件检测方法,包括以下步骤:步骤1:设计层级标签体系;步骤2:金融语料的收集与处理;步骤3:构建训练集和测试集;步骤4:表征模型预训练;步骤5:表征模型微调训练;步骤6:文本特征提取并分类;步骤7:事件预测。将本发明专利技术的实验结果与主流的基准模型进行对比,可以发现本发明专利技术的实验结果比基准模型的结果都好,无论是否有递归正则的约束。从准确度出发,本发明专利技术的模型完全预测正确的为57.42%,比最好的基准模型HAN要高出4%。从模型对父子节点的整体依赖角度来看,在HMDScore指标上本发明专利技术的模型比最好的HAN‑HR要高出近7个百分点。在层级文本分类的常用评测指标中hF‑score中,本发明专利技术的模型比最好的HAN‑HR高出近8个百分点。

【技术实现步骤摘要】
一种基于层级多标签分类的金融事件检测方法、设备
本专利技术涉及自然语言处理
,是一个基于层级多标签文本分类技术的对非结构性文本进行自动事件检测的方法、设备。
技术介绍
股票交易是一种与投资和融资有关的重要金融活动,许多交易者和机构作为投资者参与股票交易市场,买卖股票以获取利润。上市公司的股价通常受与这些公司有关的几个关键驱动因素的支持,例如销量,季度/年度收入,毛利润率,净收入和每股收益等。这些关键驱动因素通常受到各种因素的影响。比如政治,政策和宏观经济等因素,以及这些因素的变化最终将导致支撑股价的主要驱动力发生变化。影响关键驱动因素的状态变化通常以非结构性文本(例如新闻文章和政策声明)的形式呈现,而因素的状态变化被视为最终会影响上市公司股价的事件。因此如何准确精细地检测事件,是确保投资策略可靠有效的关键所在。在实际的应用场景中,往往以层级结构来表示和组织金融事件体系。面对具体的非结构性文本比如金融新闻或证券公司发布的研报,每条文本可能蕴含一个角度或多个角度,因此可以为该事件分配一个或多个事件标签,来表明去对应的层次结构和类别。因此可以将金融事件检测建模为层级多标签分类的问题。目前业界对层级多标签文本分类任务提出了许多方法,包括基于规则的方法、机器学习方法以及近年来得到长足发展的深度学习方法。基于规则的方法使用一组预定义的规则将文本分类为不同的类别。例如,任何带有“足球”,“篮球”或“棒球”字样的文档都被赋予“运动”标签。这些方法需要对领域有深入的了解,并且系统难以维护。传统的机器学习分类方法将整个文本分类问题就拆分成了特征工程和分类器两部分。特征工程分为文本预处理、特征提取、文本表示三个部分,最终目的是把文本转换成计算机可理解的格式,并封装足够用于分类的信息,即很强的特征表达能力。常见的特征构造方法包括词袋法(BoW)及其在此基础上的延伸。常见的分类算法包括朴素贝叶斯、支持向量机(SVM)、隐马尔可夫模型(HMM)、随机森林和GBDT/XGBOOST。除了基于机器学习的方法,基于深度学习的模型已应用于计算机视觉和自然语言处理中的各种任务,并且取得了不错的成绩。这些模型尝试以端到端的方式学习特征表示并执行分类(或回归)。它们不仅能够发现数据中的隐藏模式,而且便于从一个应用转移到另一个应用。为了解决传统文本表示高纬稀疏的问题,学者提出了分布式的空间向量模型比如Word2Vec,利用神经网络大幅降低表征纬度,提高表征质量。前馈神经网络是最常见的基于深度学习的分类方法,虽然结构简单,但是它们已经在许多文本分类基准上达到了很高的准确性。基于RNN的模型将文本视为单词序列,旨在捕获单词依赖性和文本结构以进行文本分类。与训练RNN识别跨时间的模式不同,基于CNN的方法通过卷积核捕获滑动空间内的词语序列学会识别跨空间的模式。除此以外还有基于注意力机制的文本分类算法。语言模型可以使用注意力向量来估计它与其他词的相关性,进而确定不同词语或短句在文本表征中所占的权重。以上这些技术都由其优势,并在部分任务上取得了不错的结果,但是在金融文本的层级多标签分类仍然有以下不足:1.忽略层级标签体系的父子节点依赖关系。传统的层级多标签分类方法假定类别是独立的,忽略了类别层次结构之间存在的结构依赖性。2.在基于RNN的方法中,传统的RNN单元无法有效地进行并行化计算,也无法对金融长文本进行有效的特征提取。3.此外,这些层级多标签分类算法在拟合类别分布的适合对所有类别给予相等的权重,以实现假阳性惩罚。但事实上与类别标签关联的父类别,兄弟类别和子类别标签实际上应在应用中区别对待,因为它们表示不同的层次级别。本专利技术要解决的技术问题1.可高效提取文本特征的序列编码网络本专利技术常见的金融文本多是中文字符与英文字符的集合,计算机无法直接识别,因此本专利技术需要使用一套编码机制将金融文本转换成矩阵向量,使得计算机可以处理。这套编码网络在实现文本向量化的同时需要尽可能保留文本间的语义信息,保证文本向量的表达能力。除此以外,编码机制应当有较高的编码效率,以适应金融业务领域低延迟的需求。2.准确细腻的分类算法在实现文本向量化以后,还需要设计一套准确细腻的分类算法。现有的分类算法因为忽视层级类别间的依赖在金融领域实际应用中往往难以令人满意。层级分类和直接拍平分类不同,如果使用多类别集成判断的方法,随着类别个数的提高,模型参数会大量增加,在实际应用中精度和效率都难以有效保证。而且对于不同层级不同类应该设计不同的惩罚系数,但是如何保证惩罚系数在有效引导算法拟合目标类别分布的同时减少的分类器的干扰是需要解决的问题。
技术实现思路
为了解决上述技术的不足,本专利技术的目的是提供一种柔性薄膜热电偶分装装置。本专利技术提出了一种基于层级多标签分类的金融事件检测方法,包括以下步骤:步骤1:设计层级标签体系;步骤2:收集金融语料,对收集到的语料进行文本预处理;步骤3:构建训练集和测试集;步骤4:使用步骤2中处理后的通用语料,基于双向Trasnformer模型进行表征模型预训练;步骤5:使用步骤3构建的数据集重点训练编码网络的最后一层;步骤6:文本特征提取并分类;步骤7:将目标文本输入编码网络,以概率分布的形式输出标签向量,最后通过训练得到的标签阈值作为判别标准,大于该阈值的视为将该标签分配给该文本,反之则不将标签分配给该文本。本专利技术步骤1中,根据实际应用情况设计出一系列事件标签,并按照事件的蕴含关系构成树形结构的层级标签。本专利技术步骤2中,收集包括财经新闻、投研报告和上市公司年报季报在内的金融语料,对收集到的语料进行文本预处理,包括中文分词、去停词以及处理文本噪音。本专利技术步骤3中,对语料进行标注,然后对文本进行更进一步的筛选,保证标注结果准确全面,最后依据结果分别构建训练集、验证集和测试集。本专利技术步骤4中,所述基于双向Trasnformer模型为基于Transformer结构构建的编码网络:所述编码网络包括12个编码层,每个编码层包括多个Transformer单元;所述Transformer的Encoder部分包括多头注意力机制和按位全联接前馈神经网络,对该两个子层的输出Sublayer(x)和原输入x求和后使用层级正则化,即LayerNorm(x+Sublayer(x));多头注意力机制:设输入为X=(x1,x2,…,xn),输出用MultiHead(X)表示,公式如下:MultiHead(X)=Concat(head1,head2,…,headh)Wo为权重矩阵,dmodel,dX,分别为输入向量维度和子空间维度;Attention,表示自注意力机制,headi表示第i个子空间,Concat表示合并操作;所述自注意力机制,公式如下:其中,dk为输入维度,为尺度因子,Q,K,V分别Attention机制的query、key和value,在多头注意力机制中,Q,K,V的值与相同本文档来自技高网
...

【技术保护点】
1.一种基于层级多标签分类的金融事件检测方法,其特征在于,包括以下步骤:/n步骤1:设计层级标签体系;/n步骤2:收集金融语料,对收集到的语料进行文本预处理;/n步骤3:构建训练集和测试集;/n步骤4:使用步骤2中处理后的通用语料,基于双向Trasnformer模型进行表征模型预训练;/n步骤5:使用步骤3构建的数据集重点训练编码网络的最后一层;/n步骤6:文本特征提取并分类;/n步骤7:将目标文本输入编码网络,以概率分布的形式输出标签向量,最后通过训练得到的标签阈值作为判别标准,大于该阈值的视为将该标签分配给该文本,反之则不将标签分配给该文本。/n

【技术特征摘要】
1.一种基于层级多标签分类的金融事件检测方法,其特征在于,包括以下步骤:
步骤1:设计层级标签体系;
步骤2:收集金融语料,对收集到的语料进行文本预处理;
步骤3:构建训练集和测试集;
步骤4:使用步骤2中处理后的通用语料,基于双向Trasnformer模型进行表征模型预训练;
步骤5:使用步骤3构建的数据集重点训练编码网络的最后一层;
步骤6:文本特征提取并分类;
步骤7:将目标文本输入编码网络,以概率分布的形式输出标签向量,最后通过训练得到的标签阈值作为判别标准,大于该阈值的视为将该标签分配给该文本,反之则不将标签分配给该文本。


2.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤1中,根据实际应用情况设计出一系列事件标签,并按照事件的蕴含关系构成树形结构的层级标签。


3.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤2中,收集包括财经新闻、投研报告和上市公司年报季报在内的金融语料,对收集到的语料进行文本预处理,包括中文分词、去停词以及处理文本噪音。


4.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤3中,对语料进行标注,然后对文本进行更进一步的筛选,保证标注结果准确全面,最后依据结果分别构建训练集、验证集和测试集。


5.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤4中,所述基于双向Trasnformer模型为基于Transformer结构构建的编码网络:
所述编码网络包括12个编码层,每个编码层包括多个Transformer单元;所述Transformer的Encoder部分包括多头注意力机制和按位全联接前馈神经网络,对该两个子层的输出Sublayer(x)和原输入x求和后使用层级正则化,即LayerNorm(x+Sublayer(x));
多头注意力机制:设输入为X=(x1,x2,…,xn),输出用MultiHead(X)表示,公式如下:



MultiHead(X)=Concat(head1,head2,…,headh)Wo

为权重矩阵,dmodel,dX,分别为输入向量维度和子空间维度;Attention,表示自注意力机制,headi表示第i个子空间,Concat表示合并操作;
所述自注意力机制,公式如下:



其中,dk为输入...

【专利技术属性】
技术研发人员:梁鑫程大伟杨芳洲罗轶凤钱卫宁周傲英
申请(专利权)人:华东师范大学上海瞰点科技有限责任公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1