System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能和计算机科学领域,特别是涉及一种自然语言处理方法、装置、设备及计算机可读存储介质。
技术介绍
1、自然语言处理技术(nlp)是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流,是人工智能最为关键的核心技术之一。
2、用自然语言与计算机进行通信,这是人们长期以来所追求的,因为它有着明显的实际意义:人们可以像与人交流一样高效指挥使用各种智能家电、机械;人们可以用自然语言精确检索各项所需信息;人们可以用任意自然语种进行即时交流;人们可以用自己最习惯的语言编写计算机程序,而无需再花大量的时间和精力去学习各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。
3、nlp技术经历了70多年的发展历史,按照技术的角度大致可分为nlp1.0:基于规则,nlp2.0:基于统计和nlp3.0基于深度学习三个阶段,其中2022年chatgpt的出现使得nlp的智能化水平大幅提升。
4、其中第一阶段是在上世纪50~70年代,这个阶段的自然语言处理主要采用基于语法规则的方法,即研究人员认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,人类可以通过整理语法规则教会机器理解自然语言。但是,这种方法的缺点是,很难用规则的形式将各种自然语言的事实和理解语言所需的背景知识充分的表达出来;这个阶段达到的成果是在极其受限的语境中解决一些简单的问题,无法从根本上将自然语言理解实用化。
5、第二阶段:基于统计的机器学
6、从上世纪70年代直到现在,经历了第二阶段和第三阶段的发展,深度学习技术成了当前自然语言处理最常见的方法,在机器翻译、信息抽取、人机对话、阅读理解等一系列自然语言处理任务中也取得了实质上的成果,并且进入了实用阶段;
7、但是深度学习技术同样存在几个方面的问题:语义知识的模糊性和错踪复杂的关联性无法用单纯的语言数学模型进行描述;语言现象动态发展的不可预测性;有限的语料库造成的语言数学模型的数据不充分性;理解语义必要的知识库等。对于其中技术最领先的chatgpt4.0来说,它还存在着一些问题:过度依赖机器学习,以及自然语言处理算法,其准确性和效率严重受到数据集质量、算法训练的影响;无法处理含有专业术语的问题或文本;对于一些需要大量计算资源的场合,响应时间无法符合需求;模型规模与表现正相关,海量扩大规模导致应用成本的上升。
8、统计模型要取得更大的成功,还依赖于语言学理论的突破。
9、以上信息分别摘自《2023年中国自然语言理解行业概览:人与机器语言交互的核心技术报告出品方/分析师:头豹研究院》和《自然语言处理(语言处理方式)-百度百科》。
10、自然语言最本质的功用是传递信息,任何一种自然语言其实质是加密了信息的文字或声音的编码,人们能用一种自然语言进行信息交流,是因为相互掌握了该自然语言加密和解密的规则和被加密的背景知识,要让机器理解这种自然语言传递的信息,就是要机器去解密这种自然语言文字或声音的编码,首要的是要有该自然语言加密规则和背景知识的数学模型,即该自然语言语法系统的数学模型,对于任何一个人类可以轻松掌握的自然语言语法规则系统,人们却一直没有好的方法为之精准建模;在nlp出现后的前20年,即nlp1.0阶段,所谓的“鸟飞派”方法的失败就是因为遇到了:“文法规则数量大会出现矛盾,自然语言的词义以及上下文相关的特性难以解析,一词多义、一义多词等现象无法处理”这些不可克服的障碍。
11、2021-06-22授权公告的授权公告号为:cn110489752b的专利《一种自然语言的语义递归表示系统》公开了一种自然语言的语法建模方法,涉及到一种自然语言词典的建立,词条的内容包括字形、字音、语义、父类、附加分类等信息,也提出了递归定义的概念和方法,建立了一个较原始的语法数学模型,但还无法让机器直接理解,其问题在于:1.未识别到自然语言中词与词之间的面向对象的关系,所以其词义、语义就无法面向对象化;2.没有认识到关系域的概念,也就无法实现机器验证语法合法性,无法系统性建立语法规则数学模型,不能进一步的做语法语义分析;3.词的分类也未面向对象,不利于机器的理解和面向对象语言语义的生成。
技术实现思路
1、本专利技术公开的一种自然语言处理方法,其中的一个方面解决的问题是:建立一个自然语言语法系统的数学模型,将理解语言所需的背景知识数学化,可以为机器理解自然语言而直接使用,最终达到人机交互的目的。
2、自然语言是人类相互间使用的语言,计算机语言是人类创造出用于人类跟计算机沟通的语言,二者都是为了人类认识世界改造世界服务的,存在着共通点,但也存在着沟壑:自然语言具有复杂的语法规则、歧义性和灵活性、开放性和发展性、互动性和实践性,这些都是目前自然语言不能真接与计算机沟通的原因,要想达到消除沟壑的阻碍,需要双向的努力,计算机语言从最初的机器语言、汇编语言、面向过程语言发展到目前的面向对象的编程语言,越来越向着自然语言在靠近,也越来越向着语言在哲学上存在的本质意义靠近;反观另一方面,自然语言经历多年发展,在语法学方面,还停留在语法形态、语法功能、语法结构的初级阶段。
3、本专利技术一方面以一种面向对象的方法观,将传统自然语言的语法学系统面向对象化,具体表现在面向对象的词类、面向对象的关系域、面向对象的词义、基于面向对象的词类序列表征的自然语言语法规则、基于关系域的语法规则校验公式组,将人类掌握的理解自然语言所需的背景知识和复杂的语法规则可以全部实现数模化,从而建立起完整的自然语言语法学数学模型;另一方面将面向对象的编程语言自然语言化,具体为:以所述面向对象的自然语言词典为标准类库,面向自然语言的编译器可以直接将自然语言解析为机器代码,面向自然语言的生成器可以将机器掌握的机器代码形式的信息转换生成目标自然语言;两相结合,实现用自然语言与机器直接沟通的目标。
4、技术方案
5、本专利技术以汉语这种自然语言为例,对专利技术的方法做一说明;说明中使用的例句,部份引用自陆俭明著《现代汉语语法研究教程》第五版。
6、本专利技术公开的一种自然语言处理方法,首先是建立一个目标自然语言语法系统的数学模型,包括但不限于:
7、s1.1建立一个所述自然语言的词典,所述词典的词条所包含的信息种类包括但不限于词目及其词类、词义、两种及以上的关系项;
8、所述词目的词类是一种面向对象的分类:包括但不限于与“类、方法、属性、值、对象、运算”相关的类别;
9、所述词目的词义是用一种面向对象的编程语本文档来自技高网...
【技术保护点】
1.一种自然语言处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其进一步的特征为:所述词典中同词不同义的词目分不同的词条记录,所述词条还包含有其唯一性识别码;所述分词模块,在分词时,根据与词条关系域匹配度的多少,对一词多义的词消歧,在生成的语法特征类数组和符号表中还包含有与所述词条唯一性识别码的对应信息。
3.根据权利要求1所述的方法,其进一步的特征为:在所述语法规则库中,具有相同语法规则特征或相同词组文本,但语义不同的语法规则分别记录,并对应定义有语法规则唯一性识别码,在后续生成的语法特征类数组中还包含有所述语法规则唯一性识别码及溯源信息。
4.根据权利要求1所述的方法,其进一步的特征为:在分词模块中,所述语法特征类还包含有声音硬件捕捉分析到的当前成分词的语音信息,包含并不限于:当前成分词的“读音拼写、每个音节和/或音素读音的快慢、长短、读音的轻重、尾音的升降、与下一词目发音间隔时长”的零到全部的特征信息;所述语法特征类还包含有视觉硬件捕捉分析到的当前成分词的视频信息,包含并不限于:“与当前成分词对应的讲述人的表情、视线焦点对象、
5.根据权利要求1所述的方法,其进一步的特征为:所述的编译器还具有记忆模块,对处理过的对象信息,以历史符号表的方式予以保存,按关键字进行检索,按使用频次、重要性等指标压缩或清除。
6.根据权利要求1所述的方法,其进一步的特征为:所诉词目的“关系项”中还穷举并标识了其直接父类对应“关系项”中不予继承的词目。
7.根据权利要求1所述的方法,其进一步的特征为:所述词典词目的特定“关系项”中还包含有带标识的词目集合类元素,该词目集合的任一子类词目均属于该“关系项”的词目集合。
8.根据权利要求1所述的方法,其进一步的特征为:所述词典词条还包含有词目的叠用格式信息,在所述的语法规则库中,还定义了相应叠用类型的语法规则,所述的分词模块优先参考格式化信息分词。
9.一种自然语言的词典,所述词典的词条所包含的信息种类包括但不限于词目及其词类、词义、两种及以上的关系项;所述词目的词类是一种面向对象的分类:包括但不限于与“类、方法、属性、值、对象、运算”相关的类别;所述词目的词义是用一种面向对象的编程语言编写的代码,是以当前词目为类名的一个Public类的声明,所述词典是所述编程语言的一个标准类库;所诉词目与“关系项”的关系是面向对象的关系,包括并不限于“类与类”、“类与方法”、“类与参数”、“类与属性”、“类与值”、“类与运算”中一种到全部的关系,在“类与类”关系其中一种“类与其父类”的关系是必要的关系,所述词目的“关系项”是指在该词目对应的“关系域”范围内至少包含有与该词目有非继承的、专属的特定关系的词目集合称为该词目的“特定关系项”,所述词目的“关系域”是指在所述词典的收录词目范围内与该词目具有特定关系的词目集合称为该词目的“特定关系域”;所述词目的“父类项”以穷举方式列出当前词目在所述词典收录词目范围内有直接或间接继承关系的所有词目,即所述词典任一词目的“父类项”等于其“父类域”,所述词典任一词目的特定“关系域”等于该词目对应的“关系项”与其“父类项”中每一个词目对应的“关系项”的并集。
10.一种用“无溢出文法”建立特定自然语言语法系统数学模型的方法,所述的“无溢出文法”是指用一种形式语言描述一种自然语言的特定语法规则,只要符合该语法规则要求的组词或造句必然是该自然语言正确的组词或造句;所述的“无溢出文法”包含但不限于:
11.一种面向对象的编程语言,其特征在于权利要求1~10任一项所述的自然语言词典中特定词目的词义代码是以特定词目为类名的所述编程语言Public类的声明,权利要求1~10任一项所述的目标自然语言词典是所述编程语言的标准类库,权利要求1中所述编译器的目标代码生成模块是所述编程语言到目标机器代码的编译器。
12.一种自然语言处理装置,其特征在于,包括:
13.一种自然语言处理设备,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1~11任一项所述的一种自然语言处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机...
【技术特征摘要】
1.一种自然语言处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其进一步的特征为:所述词典中同词不同义的词目分不同的词条记录,所述词条还包含有其唯一性识别码;所述分词模块,在分词时,根据与词条关系域匹配度的多少,对一词多义的词消歧,在生成的语法特征类数组和符号表中还包含有与所述词条唯一性识别码的对应信息。
3.根据权利要求1所述的方法,其进一步的特征为:在所述语法规则库中,具有相同语法规则特征或相同词组文本,但语义不同的语法规则分别记录,并对应定义有语法规则唯一性识别码,在后续生成的语法特征类数组中还包含有所述语法规则唯一性识别码及溯源信息。
4.根据权利要求1所述的方法,其进一步的特征为:在分词模块中,所述语法特征类还包含有声音硬件捕捉分析到的当前成分词的语音信息,包含并不限于:当前成分词的“读音拼写、每个音节和/或音素读音的快慢、长短、读音的轻重、尾音的升降、与下一词目发音间隔时长”的零到全部的特征信息;所述语法特征类还包含有视觉硬件捕捉分析到的当前成分词的视频信息,包含并不限于:“与当前成分词对应的讲述人的表情、视线焦点对象、动作指示对象、肢体语意、讲诉时间、讲诉地点、讲诉环境、讲诉场合”的零到全部的特征信息;所述语法特征类还包含有视觉硬件捕捉分析到的当前成分词的图像信息,包含并不限于:“图片指示的对象、图片指示的对象、图片提示的信息”的零到全部的特征信息;在所述语法规则的校验公式组中对应包含有对语音、视频、图像特征信息的校验公式。
5.根据权利要求1所述的方法,其进一步的特征为:所述的编译器还具有记忆模块,对处理过的对象信息,以历史符号表的方式予以保存,按关键字进行检索,按使用频次、重要性等指标压缩或清除。
6.根据权利要求1所述的方法,其进一步的特征为:所诉词目的“关系项”中还穷举并标识了其直接父类对应“关系项”中不予继承的词目。
7.根据权利要求1所述的方法,其进一步的特征为:所述词典词目的特定“关系项”中还包含有带标识的词目集合类元素,该词目集合的任一子类词目均属于该“关系项”的词目集合。
8.根据权利要求1所述的方法,其进一步的特征为:所述词典词条还包含有词目的叠用格式信息,在所述的语法规则库中,还定义了相应叠用类型的语法规则,所述的分词模块优先参考格式化信息分词。
9.一种自然语言的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。