一种基于自然语言处理的文本审查纠错系统技术方案

技术编号:37961608 阅读:12 留言:0更新日期:2023-06-30 09:36
本发明专利技术涉及自然语言处理技术领域,特别是一种基于自然语言处理的文本审查纠错系统,包括输入自然语言信息,并将自然语言信息分类为语音信息、图片信息和文字信息,分别对语音信息和图片信息进行文字转换后,统一进行词素分析后进行流畅度判定,对流畅度较低的文字信息进行审查纠错。本发明专利技术的优点在于:通过对分析后的语义数据进行第二次流畅度判断,进一步对错误的文字信息进行筛选,提高系统输出处理信息的正确率,并及时向操作人提示,使操作人能够根据纠错情况了解自然语言的处理进度和难度,且操作者可以直接根据提示中纠错位置的标注了解纠错细节,从而对系统的纠错程序进行调试,提高该系统文本审查纠错的正确率和效率。提高该系统文本审查纠错的正确率和效率。提高该系统文本审查纠错的正确率和效率。

【技术实现步骤摘要】
一种基于自然语言处理的文本审查纠错系统


[0001]本专利技术涉及自然语言处理
,特别是一种基于自然语言处理的文本审查纠错系统。

技术介绍

[0002]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言处理是一门融语言学、计算机科学、数学于一体的科学,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统,它是计算机科学的一部分。
[0003]在中国专利CN106030568B中公开的自然语言处理系统、自然语言处理方法、以及自然语言处理程序,该自然语言处理系统、自然语言处理方法、以及自然语言处理程序能够在一定的时间内自动地对词素分析的分割模型进行修正。
[0004]现有自然语言处理系统的缺点:现有自然语言处理系统多是对语音信息进行分析识别,但自然语言在语音输入和图像输入时,输入和转换的过程可能由于口音、图片清晰度等问题导致输入信息存在误差,现有自然语言处理系统对存在错误的自然语言输入信息识别能力较差,识别出来也多是进行修正,未及时向信息输入源反馈确认进行的修正依据较少导致纠错能力较弱。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的缺点,提供一种基于自然语言处理的文本审查纠错系统,有效解决了现有技术的不足。
[0006]本专利技术的目的通过以下技术方案来实现:一种基于自然语言处理的文本审查纠错系统,包括以下步骤:
[0007]1)输入自然语言信息,并将自然语言信息分类为语音信息、图片信息和文字信息;
[0008]2)语音信息被转化为文字信息,对转化的文字信息进行流畅度判定,流畅度达标的文字信息被输入到文字信息模块,流畅度未达标的文字信息进行纠错后输入到文字信息模块;
[0009]3)图片信息被识别转化为文字信息,对图片上的文字信息进行智能排版;
[0010]4)对图片信息转化的文字信息进行流畅度判定,对流畅度较低的文字信息进行智能纠错后输入到文字信息模块;
[0011]5)对输入的文字信息进行词素分析和翻译并生成语义数据;
[0012]6)对语义数据进行语义流畅度判断;
[0013]7)流畅度达标的语义数据直接输出;
[0014]8)流畅度较低的语义数据检索设备数据库进行纠错。
[0015]可选的,所述步骤2)中流畅度较低的文字信息被提取后向发声源提出语音反问确认,所述发声源根据确认问题做出回答后,语音信息被转化为文字并与第一次的文字信息进行对比分析组合,两次所述文字信息被分析组合后完成纠错输入到文字信息模块。
[0016]采用上述技术方案:通过将语音信息进行流畅度判定,使其在使用者发出语音信息后,该系统能够在语音识别后及时发现语音文字中无法识别的自然语言信息问题,并进行反问以补充对语音信息纠错的判断依据,提高语音信息纠错的准确率,避免在语音输入过程中,由于方言发音等问题导致输入信心判断有误,且纠错依据不足导致对语音信息的纠错偏差较大的情况,且直接在语音信息转文字信息对其进行纠错,能够降低输入的文字信息准确率较低造成语言处理的困难度。
[0017]可选的,所述步骤4中流畅度较低文字信息在进行智能纠错时向操作者发出纠错提示,并在设备数据库进行纠错记录。
[0018]采用上述技术方案:通过对图片上识别的文字信息进行智能纠错,当图片上的文字被涂抹或者字体不工整时,能够利用前后言的逻辑关系进行一定程度的修复,并向操作者发出纠错提示,使操作者能够辅助自然语言处理设备进行人工读取不清晰图案信息,降低该系统对潦草字体识别的错误率,或者使操作者能够在图案信息处理出错后能够根据纠错提示查找信息处理出错的原因,将纠错信息进行记录能够对不清晰或者潦草的字体进行记录,当再次识别到类似图案时能够进行调取设备数据库中的纠错记录辅助进行字体识别,从而使该系统在多次识别和储存字体图片后能够提高字体识别正确率,实现自助纠错。
[0019]可选的,所述步骤5)中的词素分析后的特定名字和分析结果存储进入设备数据库,所述词素分析时对设备数据库进行对比和检索。
[0020]采用上述技术方案:通过设置设备数据库将文字信息词素分析后的结果进行储存,使后续的词素分析能够与数据库中的分析数据进行对比,从而提高词素分析的效率,也使该系统能够在多次词素分析中储存较多的自然语言处理数据,提高语言处理识别的准确率,且文字信息的一些特殊名字可能仅代表某个人物或物品,对特殊名字进行检索并将检索信息储存后,在下次识别到该名字时能够根据该特殊名字的检索情况进行数据处理,比如识别到一个车名即可知道这是一种车辆,从而提高词素分析的准确率。
[0021]可选的,所述步骤8)中的所述语义数据进行检索数据库纠错后向操作人弹出纠错提示,所述纠错提示中对纠错的文字进行标注,所述纠错提示储存进入设备数据库。
[0022]采用上述技术方案:通过对分析后的语义数据进行第二次流畅度判断,进一步对错误的文字信息进行筛选,提高系统输出处理信息的正确率,并及时向操作人提示,使操作人能够根据纠错情况了解自然语言的处理进度和难度,且操作者可以直接根据提示中纠错位置的标注了解纠错细节,从而对系统的纠错程序进行调试,提高该系统文本审查纠错的正确率和效率。
[0023]本专利技术具有以下优点:
[0024]1、该基于自然语言处理的文本审查纠错系统,通过将语音信息进行流畅度判定,使其在使用者发出语音信息后,该系统能够在语音识别后及时发现语音文字中无法识别的自然语言信息问题,并进行反问以补充对语音信息纠错的判断依据,提高语音信息纠错的准确率,避免在语音输入过程中,由于方言发音等问题导致输入信心判断有误,且纠错依据不足导致对语音信息的纠错偏差较大的情况,且直接在语音信息转文字信息对其进行纠
错,能够降低输入的文字信息准确率较低造成语言处理的困难度。
[0025]2、该基于自然语言处理的文本审查纠错系统,通过对图片上识别的文字信息进行智能纠错,当图片上的文字被涂抹或者字体不工整时,能够利用前后言的逻辑关系进行一定程度的修复,并向操作者发出纠错提示,使操作者能够辅助自然语言处理设备进行人工读取不清晰图案信息,降低该系统对潦草字体识别的错误率,或者使操作者能够在图案信息处理出错后能够根据纠错提示查找信息处理出错的原因,将纠错信息进行记录能够对不清晰或者潦草的字体进行记录,当再次识别到类似图案时能够进行调取设备数据库中的纠错记录辅助进行字体识别,从而使该系统在多次识别和储存字体图片后能够提高字体识别正确率,实现自助纠错。
[0026]3、该基于自然语言处理的文本审查纠错系统,通过设置设备数据库将文字信息词素分析后的结果进行储存,使后续的词素分析能够与数据库中的分析数据进行对比,从而提高词素分析的效率,也使该系统能够在多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的文本审查纠错系统,其特征在于:包括以下步骤:1)输入自然语言信息,并将自然语言信息分类为语音信息、图片信息和文字信息;2)语音信息被转化为文字信息,对转化的文字信息进行流畅度判定,流畅度达标的文字信息被输入到文字信息模块,流畅度未达标的文字信息进行纠错后输入到文字信息模块;3)图片信息被识别转化为文字信息,对图片上的文字信息进行智能排版;4)对图片信息转化的文字信息进行流畅度判定,对流畅度较低的文字信息进行智能纠错后输入到文字信息模块;5)对输入的文字信息进行词素分析和翻译并生成语义数据;6)对语义数据进行语义流畅度判断;7)流畅度达标的语义数据直接输出;8)流畅度较低的语义数据检索设备数据库进行纠错。2.根据权利要求1所述的一种基于自然语言处理的文本审查纠错系统,其特征在于:所述步骤2)中流畅度较低的文字信息被提取后向...

【专利技术属性】
技术研发人员:洪创波
申请(专利权)人:广东潮庭集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1