【技术实现步骤摘要】
基于主述位理论的汉语基本篇章单元识别方法
本专利技术涉及汉语篇章领域,具体涉及一种基于主述位理论的汉语基本篇章单元识别方法。
技术介绍
近年来,随着句子级研究的日趋成熟,篇章分析成为研究热点之一,它在信息抽取、机器翻译、指代消解等自然语言处理领域中的应用越来越广泛,成为自然语言理解的核心问题之一。篇章也称语篇,通常是由一系列连续的子句、句子和句群构成的语言整体单位。任何文本单元都不可孤立的进行解读,而是需要根据其上下文进行解读。而篇章分析的目的就是从整体上解读文本,分析篇章内部的结构和关系。因此,篇章分析的一般步骤包括,(1)识别基本篇章单元。基本篇章单元(ElementaryDiscourseUnits,EDU)是句子中具有独立语义和独立功能的最小单位,是进行篇章分析的基本单位。(2)篇章结构及关系的解析。将识别出的基本篇章单元依据一定的关系(例如修辞关系)构建形成特定结构,常见的结构有树和图等。可以看到,无论进行哪种篇章结构的分析,EDU识别都是一项基础工作,它的识别性能会对后续篇章结构的解析产生极大的影响。随着RST-DT(RhetoricalStructureTheoryDiscourseTreebank)与PDTB(PennDiscourseTreebank)英文篇章语料库的发布,针对英文基本篇章单元识别的研究受到了很多研究人员的关注。代表性工作包括:Sporleder和Lapata第一个引入神经网络模型,将基本篇章单元识别作为序列化标注问题。XuanBach等在RST-DT语料中进行的EDU识别实验得到目前的最优性能,F1值为93.7%。但他们 ...
【技术保护点】
1.一种基于主述位理论的汉语基本篇章单元识别方法,其特征在于,包括:通过确定EDU中主、述位的位置间接获得EDU的边界,因此可将EDU识别分成两个部分,首先进行主、述位识别,然后在识别主位和述位后再依据一定的规则合并得到EDU;模型以句子为基本处理单位,输入句子后,进行分词和词性标注,再以词为单位,交由主述位识别模型的Word Sequence Layer层进行编码,再由Inference Layer层进行解码和标注,最终得到主位和述位的边界,最后依据一定的规则进行主、述位的合并,得到最终的EDU边界信息。
【技术特征摘要】
1.一种基于主述位理论的汉语基本篇章单元识别方法,其特征在于,包括:通过确定EDU中主、述位的位置间接获得EDU的边界,因此可将EDU识别分成两个部分,首先进行主、述位识别,然后在识别主位和述位后再依据一定的规则合并得到EDU;模型以句子为基本处理单位,输入句子后,进行分词和词性标注,再以词为单位,交由主述位识别模型的WordSequenceLayer层进行编码,再由InferenceLayer层进行解码和标注,最终得到主位和述位的边界,最后依据一定的规则进行主、述位的合并,得到最终的EDU边界信息。2.如权利要求1所述的基于主述位理论的汉语基本篇章单元识别方法,其特征在于,下面将对模型进行详细的介绍:标注体系:从篇章衔接性角度看,主位和述位构成了信息推进的序列,可以在对上下文信息进行编码的基础上借助序列化标注方法完成主位和述位的标注。而序列化标注方法首先需要设计一套切实可行的标签集合。通过对语料的分析,本发明发现待标注的主述位结构可以分为三种类型,对于这三种不同类型本发明设计了不同的标注方案:主述位结构完整型,即包含完整的非单词型的主位和述位。单词型主位,即主位仅包含一个词。这种情况下主位仅由一个词构成,BIE标注体系无法使用,因为开始位置与结束位置冲突。对于这种情况本发明使用B-T-E表示主位;隐式主位型,即当前EDU的主位信息可由上下文推导得出,并未显式给出;这种情况下,句子可看作“主位-述位-述位”的序列;对于连续出现多个述位的情况而言,后续述位可看作是包含隐式主位的EDU;这种情况标注方案在主述位的标注中,默认主位省略,不标注主位;主述位识别模型:主述位识别模型由两部分构成:WordSequenceLayer和InferenceLayer,下面将分别进行介绍。WordSequenceLayer:WordSequenceLayer需要完成两个任务:(1)处理输入的句子,返回一个由词向量和词性向量拼接而成的序列;(2)对于给定的词信息序列(x1,x2,x3,...,xn),提取其对应的上下文特征,返回一个关于输入序列的表示序列(h1,h2,h3,...,hn)。在任务1中,本发明将一个含有n个词的句子(词的序列)记作:x=(x1,x2,x3,...,xn)其中xi表示句子的第i个词在字典中的id。然后,本发明利用预训练的Embedding矩阵将句子中的每个词xi映射为低维稠密的词向量,最终将词向量、词性向量拼接作为下一个任务的输入。对于任务2,本发明选用双向LSTM、GCN对输入序列进行建模,动态捕获序列数据信息,得到目标左边和右边的上下文信息,学习长期的依赖关系,自动提取句子特征。模型的输入为词和词性,在Word/POSRepresentations部分,通过查找词向量表,借助预训练的词向量将词转化为向量表示,同时随机生成词性向量,最终在每个词处将词向量与词性向量拼接形成整体后,送入ForwardLSTM与BackwardLSTM中进行特征抽取。ForwardLSTM从左向右捕获文本信息,而BackwardLSTM以相反方向提取信息。前向LSTM与后向LSTM的隐藏状态在LSTMhidden处串联表示整个序列的全局信息,最终将此信息传入GCNLayer层;参考DiegoMarcheggiani提出的方法,制定了如下约束:约束1:为了避免丢失节点自己所携带的信息,本发明对图中每个节点添加一个指向自己的特殊的边,指定其标签...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。