本发明专利技术公开了一种文本内容质量评估系统,属于自然语言处理技术领域,包括翻译转换模块,所述翻译转换模块耦合有词性文本生成模块,所述词性文本生成模块耦合有概率求取模块,所述概率求取模块耦合有参考文本特征向量转化模块,所述概率求取模块同时与特征项确定模块相耦合,所述参考文本特征向量转化模块耦合有二分类器训练模块,所述二分类器训练模块耦合有待评估文本特征向量转化模块;本发明专利技术通过设置翻译转换模块,可对选取的文本进行统一格式的操作,并可对文本中的特殊字符和乱码进行记录和删除,且可将不同语言转化为简体中文进行记录,提高文本有用信息的获取量,保证文本分析的精度。本分析的精度。本分析的精度。
A text content quality evaluation method and system
【技术实现步骤摘要】
一种文本内容质量评估方法及系统
[0001]本专利技术属于自然语言处理
,具体涉及一种文本内容质量评估方法及系统。
技术介绍
[0002]文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本与讯息的意义大致相同,指的是由一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,由文本内容分析,可以推断文本提供者的意图和目的。
[0003]现有技术存在以下问题:
[0004]1、现有的文本在获取时无法对文本内容格式统一校正,且文本内包含图片、特殊字符等多余信息,无法对文本内容精确提取,影响文本分析的质量;
[0005]2、在对文档分析完成后不便与再次进行复查,难以找出修改后的文档与原文档的差异点,导致修改费时费力。
技术实现思路
[0006]为解决上述
技术介绍
中提出的问题。本专利技术提供了一种文本内容质量评估方法及系统,具有降低错误率,复查便捷的特点。
[0007]本专利技术还提供了一种文本内容质量评估系统的使用方法。
[0008]为实现上述目的,本专利技术提供如下技术方案:一种文本内容质量评估系统的使用方法包括:
[0009]第一步,选取参考文本并将其分类为无关文本和相关文本,并在分类完成后对文本格式进行统一修正;
[0010]第二步,对参考文本中的特殊字符及乱码进行标记和删除处理,并记录数据位置信息进行存储备用;
[0011]第三步,对参考文本中的非汉语语句进行翻译校正,并对翻译处的语句进行标记和记录,且存留位置信息并按时间顺序保存;
[0012]第四步,提取参考文本中每句话的词性,并将参考文本转化为词性文本,并求取参考文本所对应的每个词性文本的每个字节片段在所有字节片段中出现的概率,然后将词性文本中设定的字节片段作为词性文本的特征项;
[0013]第五步,将特征项转化为特征向量并输入二分类器中进行训练;
[0014]第六步,将待评估文本转化为词性文本,并将其中设定的字节片段转化为第二特征向量;
[0015]第七步,将参考文本训练后的特征向量与第二特征向量进行对比记录,并可标注
出待评估文本与参考文本中无关文本的重合部分;
[0016]第八步,输入修改后的待评估文本并求第三特征向量,然后与参考文本训练后的特征向量对其进行对比,同时第三特征向量与第二特征向量再次对比找寻差异;
[0017]第九步,若修改后的待评估文本不合格,则在完成记录后对修改后的待评估文本、初版待评估文本及参考文本对比差异并列展示,若修改后的待评估文本合格过审,则另单独对修改后的待评估文本进行记录保存。
[0018]进一步的;一种文本内容质量评估系统,包括翻译转换模块,所述翻译转换模块耦合有词性文本生成模块,所述词性文本生成模块耦合有概率求取模块,所述概率求取模块耦合有参考文本特征向量转化模块,所述概率求取模块同时与特征项确定模块相耦合,所述参考文本特征向量转化模块耦合有二分类器训练模块,所述二分类器训练模块耦合有待评估文本特征向量转化模块,所述翻译转换模块包括文本输入模块、语句翻译模块、格式设定模块和文本输出模块,其中,所述文本输入模块耦合有格式设定模块,所述格式设定模块耦合有语句翻译模块,所述语句翻译模块耦合有文本输出模块;
[0019]进一步的;所述文本输入模块用于参考文本的输入,并可根据设定对无关文本与相关文本进行分类,同时统计各个文本的页数、字数和格式数据,便于进行对比管理;所述语句翻译模块可对参考文本中的英语、法语及非汉语进行识别和翻译,并对翻译处进行标注记录;所述格式设定模块可将翻译后的文本格式自动与原参考文本同步,同时将翻译后的文本返回原参考文本的对应位置并替换非汉语部分;所述文本输出模块可将完成翻译的新参考文本输出进行下一次操作。
[0020]进一步的;所述语句翻译模块还耦合有字符识别模块,所述字符识别模块可对参考文本全篇进行浏览,并对数学符号、罗马符号及特殊符号进行标注并删除,同时可检测参考文本中的图片及插入文件并标注。
[0021]进一步的;所述语句翻译模块与字符识别模块还耦合有数据暂存模块,所述数据暂存模块可对删除的符号及翻译的文本进行缓存记录,便于后续对比寻找,同时可对原参考文本及翻译校正后的新参考文本进行储存,并按时间顺序进行排列。
[0022]进一步的;所述二分类器训练模块和待评估文本特征向量转化模块耦合有记录复查模块,所述记录复查模块包括评估结果记录模块、复查文本输入模块、对比评估模块、复查结果记录模块和综合输出模块,所述评估结果记录模块可对待评估文本和新参考文本的对比数据进行记录,同时对待评估文本中与无关文本重合的特征进行标注,并根据设定阈值对待评估文本进行判定合格与否。
[0023]进一步的;所述复查文本输入模块可对需要复查的待评估文本进行输入并排版,同时对文本进行自动缓存便于随时取用。
[0024]进一步的;所述对比评估模块可将复查的待评估文本与参考文本进行再次对比评估,并可同时对已存储的初次对比文本进行二次比较,并对二次比较的修改点进行标注,当复查的待评估文本判定为合格时自动标记并留存根,在复查的待评估文本判定不合格时则单独进行存储保存。
[0025]进一步的;所述复查结果记录模块可对复查的待评估文本与参考文本对比结果进行记录,并可对复查的待评估文本与初次对比文本对比结果进行记录,若复查的待评估文本不合格,则在完成记录后同时只将结果并列展示,若复查的待评估文本合格过审,则另单
独对复查的待评估文本进行记录保存。
[0026]进一步的;所述综合输出模块可选择将对比结果并列输出,或将复查的待评估文本及标注处进行输出,复查的待评估文本合格的情况下则可选择单独输出并清除记录。
[0027]与现有技术相比,本专利技术的有益效果是:
[0028]1、本专利技术通过设置翻译转换模块,可对选取的文本进行统一格式的操作,并可对文本中的特殊字符和乱码进行记录和删除,且可将不同语言转化为简体中文进行记录,提高文本有用信息的获取量,保证文本分析的精度。
[0029]2、本专利技术通过设置记录复查模块,可便捷的对修改后的文本进行复查,并同时与参考文本及初版待评估文本进行对比,便于对错误点进行分析,提高工作质量,保证文本修改的便利性。
附图说明
[0030]图1为本专利技术的系统结构示意图;
[0031]图2为本专利技术的流程示意图。
[0032]图中:1、翻译转换模块;11、文本输入模块;12、语句翻译模块;13、字符识别模块;14、格式设定模块;15、数据暂存模块;16、文本输出模块;2、词性文本生成模块;3、概率求取模块;4、参考文本特征向量转化模块;5、二分类器训练模块;6、特征项确定模块;7、评估文本特征向量转本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本内容质量评估系统,包括翻译转换模块(1),其特征在于:所述翻译转换模块(1)耦合有词性文本生成模块(2),所述词性文本生成模块(2)耦合有概率求取模块(3),所述概率求取模块(3)耦合有参考文本特征向量转化模块(4),所述概率求取模块(3)同时与特征项确定模块(6)相耦合,所述参考文本特征向量转化模块(4)耦合有二分类器训练模块(5),所述二分类器训练模块(5)耦合有待评估文本特征向量转化模块(7),所述翻译转换模块(1)包括文本输入模块(11)、语句翻译模块(12)、格式设定模块(14)和文本输出模块(16),其中,所述文本输入模块(11)耦合有格式设定模块(14),所述格式设定模块(14)耦合有语句翻译模块(12),所述语句翻译模块(12)耦合有文本输出模块(16);所述文本输入模块(11)用于参考文本的输入,并可根据设定对无关文本与相关文本进行分类,同时统计各个文本的页数、字数和格式数据,便于进行对比管理;所述语句翻译模块(12)可对参考文本中的英语、法语及非汉语进行识别和翻译,并对翻译处进行标注记录;所述格式设定模块(14)可将翻译后的文本格式自动与原参考文本同步,同时将翻译后的文本返回原参考文本的对应位置并替换非汉语部分;所述文本输出模块(16)可将完成翻译的新参考文本输出进行下一次操作。2.根据权利要求1所述的一种文本内容质量评估系统,其特征在于:所述语句翻译模块(12)还耦合有字符识别模块(13),所述字符识别模块(13)可对参考文本全篇进行浏览,并对数学符号、罗马符号及特殊符号进行标注并删除,同时可检测参考文本中的图片及插入文件并标注。3.根据权利要求2所述的一种文本内容质量评估系统,其特征在于:所述语句翻译模块(12)与字符识别模块(13)还耦合有数据暂存模块(15),所述数据暂存模块(15)可对删除的符号及翻译的文本进行缓存记录,便于后续对比寻找,同时可对原参考文本及翻译校正后的新参考文本进行储存,并按时间顺序进行排列。4.根据权利要求1所述的一种文本内容质量评估系统,其特征在于:所述二分类器训练模块(5)和待评估文本特征向量转化模块(7)耦合有记录复查模块(8),所述记录复查模块(8)包括评估结果记录模块(81)、复查文本输入模块(82)、对比评估模块(83)、复查结果记录模块(84)和综合输出模块(85),所述评估结果记录模块(81)可对待评估文本和新参考文本的对比数据进行记录,同时对待评估文本中与无关文本重合的特征进行标注,并根据设定阈值对待评估文本进行判定合格与否。5.根据权利要求4所述的一种文本内容质量评估系统,其特征在于:所述复查文本输入模块(82)可对需要复查的待评估文本进行输入并排版,同时对文本进行自动缓存便于随时取用。6.根据权利要求4所述的一种文本内容质量评估系统,其特征在于:所述对比评估模块(83)可将复查的待评估文本与参考文本进行再次对比评估,并可同时对已存储的初次对比文本进行二次...
【专利技术属性】
技术研发人员:符甜,李柏潍,
申请(专利权)人:火星语盟深圳科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。