当前位置: 首页 > 专利查询>苏州大学专利>正文

基于主述位理论的汉语基本篇章单元识别方法技术

技术编号:22055733 阅读:18 留言:0更新日期:2019-09-07 15:25
本发明专利技术公开了一种基于主述位理论的汉语基本篇章单元识别方法。本发明专利技术基于主述位理论的汉语基本篇章单元识别方法,包括:通过确定EDU中主、述位的位置间接获得EDU的边界,因此可将EDU识别分成两个部分,首先进行主、述位识别,然后在识别主位和述位后再依据一定的规则合并得到EDU。本发明专利技术的有益效果:参考了英文基本篇章单元的识别方法,结合汉语实际情况,在使用深度学习方法的同时引入主述位结构,一方面将EDU识别当作关于主述位的序列化标注问题,实现了主述位结构与EDU的联合识别;另一方面从EDU内部构成的完整性角度进行EDU边界的识别,提升了EDU的识别性能。

Chinese Basic Text Unit Recognition Based on Theme-Rheme Theory

【技术实现步骤摘要】
基于主述位理论的汉语基本篇章单元识别方法
本专利技术涉及汉语篇章领域,具体涉及一种基于主述位理论的汉语基本篇章单元识别方法。
技术介绍
近年来,随着句子级研究的日趋成熟,篇章分析成为研究热点之一,它在信息抽取、机器翻译、指代消解等自然语言处理领域中的应用越来越广泛,成为自然语言理解的核心问题之一。篇章也称语篇,通常是由一系列连续的子句、句子和句群构成的语言整体单位。任何文本单元都不可孤立的进行解读,而是需要根据其上下文进行解读。而篇章分析的目的就是从整体上解读文本,分析篇章内部的结构和关系。因此,篇章分析的一般步骤包括,(1)识别基本篇章单元。基本篇章单元(ElementaryDiscourseUnits,EDU)是句子中具有独立语义和独立功能的最小单位,是进行篇章分析的基本单位。(2)篇章结构及关系的解析。将识别出的基本篇章单元依据一定的关系(例如修辞关系)构建形成特定结构,常见的结构有树和图等。可以看到,无论进行哪种篇章结构的分析,EDU识别都是一项基础工作,它的识别性能会对后续篇章结构的解析产生极大的影响。随着RST-DT(RhetoricalStructureTheoryDiscourseTreebank)与PDTB(PennDiscourseTreebank)英文篇章语料库的发布,针对英文基本篇章单元识别的研究受到了很多研究人员的关注。代表性工作包括:Sporleder和Lapata第一个引入神经网络模型,将基本篇章单元识别作为序列化标注问题。XuanBach等在RST-DT语料中进行的EDU识别实验得到目前的最优性能,F1值为93.7%。但他们的工作过分依赖标准词法、句法信息,而在实际应用中这些信息的获取需要耗费大量的人力物力。ChloeBraud采取序列化标注的方法,使用自动词法、句法信息作为输入特征,F1值为86.8%。受限于语料库,有关汉语基本篇章单元识别的研究相对较少,主要思想是将EDU识别任务看作汉语中的逗号分类问题,代表性工作有:李艳翠分析了逗号与基本篇章单元的关系,并在标注语料上进行了基于逗号的汉语EDU识别研究。NianwenXue等将中文子句切分当作逗号分类问题,自动识别汉语句子中表示句号功能的逗号,识别的准确率接近90%。Jin等提出利用逗号、谓词等特征分割汉语句子的方法,准确率为87.1%。传统技术存在以下技术问题:相比英文,汉语篇章分析的相关研究刚刚起步,目前主要存在如下一些问题:(1)针对汉语篇章分析的理论指导体系还不够完善。汉语注重意会,严重依赖上下文,与西方语言差异显著,使得汉语篇章分析不能照搬西方语言的篇章分析方法,需要汉语篇章研究者们结合汉语特点,通过借鉴西方语言篇章分析方法,找出适合汉语篇章分析的研究方法。(2)适用于汉语篇章分析研究的大规模语料库相对缺乏。近年来建立汉语篇章语料库资源成为研究者关注的焦点。乐明依据修辞结构理论(RhetoricalStructureTheory,RST)完成了语料标注工作。Zhou和Xue等在分析中英文差异的基础上,通过扩展PDTB体系构建了中文篇章树库CDTB(ChineseDiscourseTreebank)。李艳翠等结合RST和PDTB体系的优点,联合汉语句群理论,提出了连接词驱动的篇章树表示体系,并以此为依据标注完成了500个文档的汉语连接词驱动篇章树库CDTB(Connective-drivenDiscourseTreebank)。奚雪峰等提出了基于主述位理论的篇章微观话题结构表示体系,并依据它标注形成了500篇文档的微观话题结构语料库CDTC。(3)而且上述有关汉语EDU识别研究都是基于传统机器学习方法,基本思想是将汉语EDU识别当作逗号分类问题,虽然取得了不错的识别效果,但也有不足之处。首先,他们的模型均需人工提取特征,而人工建立特征工程往往需要投入大量时间研究和调整输入特征。同时实验效果依赖标准词法、句法信息,当没有标准信息时,实验结果较差。
技术实现思路
本专利技术要解决的技术问题是提供一种基于主述位理论的汉语基本篇章单元识别方法,参考了英文基本篇章单元的识别方法,结合汉语实际情况,在使用深度学习方法的同时引入主述位结构,一方面将EDU识别当作关于主述位的序列化标注问题,实现了主述位结构与EDU的联合识别;另一方面从EDU内部构成的完整性角度进行EDU边界的识别,提升了EDU的识别性能。为了解决上述技术问题,本专利技术提供了一种基于主述位理论的汉语基本篇章单元识别方法,包括:通过确定EDU中主、述位的位置间接获得EDU的边界,因此可将EDU识别分成两个部分,首先进行主、述位识别,然后在识别主位和述位后再依据一定的规则合并得到EDU;模型以句子为基本处理单位,输入句子后,进行分词和词性标注,再以词为单位,交由主述位识别模型的WordSequenceLayer层进行编码,再由InferenceLayer层进行解码和标注,最终得到主位和述位的边界,最后依据一定的规则进行主、述位的合并,得到最终的EDU边界信息。在另外的一个具体实施例中,下面将对模型进行详细的介绍:标注体系:从篇章衔接性角度看,主位和述位构成了信息推进的序列,可以在对上下文信息进行编码的基础上借助序列化标注方法完成主位和述位的标注。而序列化标注方法首先需要设计一套切实可行的标签集合。通过对语料的分析,本专利技术发现待标注的主述位结构可以分为三种类型,对于这三种不同类型本专利技术设计了不同的标注方案:主述位结构完整型,即包含完整的非单词型的主位和述位。单词型主位,即主位仅包含一个词。这种情况下主位仅由一个词构成,BIE标注体系无法使用,因为开始位置与结束位置冲突。对于这种情况本专利技术使用B-T-E表示主位;隐式主位型,即当前EDU的主位信息可由上下文推导得出,并未显式给出;这种情况下,句子可看作“主位-述位-述位”的序列;对于连续出现多个述位的情况而言,后续述位可看作是包含隐式主位的EDU;这种情况标注方案在主述位的标注中,默认主位省略,不标注主位;主述位识别模型:主述位识别模型由两部分构成:WordSequenceLayer和InferenceLayer,下面将分别进行介绍。WordSequenceLayer:WordSequenceLayer需要完成两个任务:(1)处理输入的句子,返回一个由词向量和词性向量拼接而成的序列;(2)对于给定的词信息序列(x1,x2,x3,...,xn),提取其对应的上下文特征,返回一个关于输入序列的表示序列(h1,h2,h3,...,hn)。在任务1中,本专利技术将一个含有n个词的句子(词的序列)记作:x=(x1,x2,x3,...,xn)其中xi表示句子的第i个词在字典中的id。然后,本专利技术利用预训练的Embedding矩阵将句子中的每个词xi映射为低维稠密的词向量,最终将词向量、词性向量拼接作为下一个任务的输入。对于任务2,本专利技术选用双向LSTM、GCN对输入序列进行建模,动态捕获序列数据信息,得到目标左边和右边的上下文信息,学习长期的依赖关系,自动提取句子特征。模型的输入为词和词性,在Word/POSRepresentations部分,通过查找词向量表,借助预训练的词向量将词转化为向量表示,同时随机生成词性向量,最终在每个本文档来自技高网
...

【技术保护点】
1.一种基于主述位理论的汉语基本篇章单元识别方法,其特征在于,包括:通过确定EDU中主、述位的位置间接获得EDU的边界,因此可将EDU识别分成两个部分,首先进行主、述位识别,然后在识别主位和述位后再依据一定的规则合并得到EDU;模型以句子为基本处理单位,输入句子后,进行分词和词性标注,再以词为单位,交由主述位识别模型的Word Sequence Layer层进行编码,再由Inference Layer层进行解码和标注,最终得到主位和述位的边界,最后依据一定的规则进行主、述位的合并,得到最终的EDU边界信息。

【技术特征摘要】
1.一种基于主述位理论的汉语基本篇章单元识别方法,其特征在于,包括:通过确定EDU中主、述位的位置间接获得EDU的边界,因此可将EDU识别分成两个部分,首先进行主、述位识别,然后在识别主位和述位后再依据一定的规则合并得到EDU;模型以句子为基本处理单位,输入句子后,进行分词和词性标注,再以词为单位,交由主述位识别模型的WordSequenceLayer层进行编码,再由InferenceLayer层进行解码和标注,最终得到主位和述位的边界,最后依据一定的规则进行主、述位的合并,得到最终的EDU边界信息。2.如权利要求1所述的基于主述位理论的汉语基本篇章单元识别方法,其特征在于,下面将对模型进行详细的介绍:标注体系:从篇章衔接性角度看,主位和述位构成了信息推进的序列,可以在对上下文信息进行编码的基础上借助序列化标注方法完成主位和述位的标注。而序列化标注方法首先需要设计一套切实可行的标签集合。通过对语料的分析,本发明发现待标注的主述位结构可以分为三种类型,对于这三种不同类型本发明设计了不同的标注方案:主述位结构完整型,即包含完整的非单词型的主位和述位。单词型主位,即主位仅包含一个词。这种情况下主位仅由一个词构成,BIE标注体系无法使用,因为开始位置与结束位置冲突。对于这种情况本发明使用B-T-E表示主位;隐式主位型,即当前EDU的主位信息可由上下文推导得出,并未显式给出;这种情况下,句子可看作“主位-述位-述位”的序列;对于连续出现多个述位的情况而言,后续述位可看作是包含隐式主位的EDU;这种情况标注方案在主述位的标注中,默认主位省略,不标注主位;主述位识别模型:主述位识别模型由两部分构成:WordSequenceLayer和InferenceLayer,下面将分别进行介绍。WordSequenceLayer:WordSequenceLayer需要完成两个任务:(1)处理输入的句子,返回一个由词向量和词性向量拼接而成的序列;(2)对于给定的词信息序列(x1,x2,x3,...,xn),提取其对应的上下文特征,返回一个关于输入序列的表示序列(h1,h2,h3,...,hn)。在任务1中,本发明将一个含有n个词的句子(词的序列)记作:x=(x1,x2,x3,...,xn)其中xi表示句子的第i个词在字典中的id。然后,本发明利用预训练的Embedding矩阵将句子中的每个词xi映射为低维稠密的词向量,最终将词向量、词性向量拼接作为下一个任务的输入。对于任务2,本发明选用双向LSTM、GCN对输入序列进行建模,动态捕获序列数据信息,得到目标左边和右边的上下文信息,学习长期的依赖关系,自动提取句子特征。模型的输入为词和词性,在Word/POSRepresentations部分,通过查找词向量表,借助预训练的词向量将词转化为向量表示,同时随机生成词性向量,最终在每个词处将词向量与词性向量拼接形成整体后,送入ForwardLSTM与BackwardLSTM中进行特征抽取。ForwardLSTM从左向右捕获文本信息,而BackwardLSTM以相反方向提取信息。前向LSTM与后向LSTM的隐藏状态在LSTMhidden处串联表示整个序列的全局信息,最终将此信息传入GCNLayer层;参考DiegoMarcheggiani提出的方法,制定了如下约束:约束1:为了避免丢失节点自己所携带的信息,本发明对图中每个节点添加一个指向自己的特殊的边,指定其标签...

【专利技术属性】
技术研发人员:孔芳葛海柱周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1