System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及文稿智能审校,尤其涉及一种稿件审校方法及系统。
技术介绍
1、信息爆炸时代,媒体企业内容发布量呈现指数级增长,内容发布、更新频繁,为了保证内容准确无误,人工校对、检查环节必不可少,其过程繁琐枯燥,然而人员配备不足,或人员专业知识储备不足,导致内容差错经常成为漏网之鱼。
2、为辅助人工校对、降低差错率,校对系统应运而生,基于自然语言处理、知识图谱等技术对文本进行分析和校正,能够自动检测文稿中的错别字、语法错误、标点符号问题等,并提供纠正建议,从而大幅提升文稿的准确性和可读性。
3、目前,市面上的校对软件系统校大部分仅能进行常见错误校正,当需要对特定行业专业文稿进行校正时,无法识别其专有名词或目标词汇,难以实现对专有知识的校正。
技术实现思路
1、为解决或部分解决相关技术中存在的问题,本申请提供一种稿件审校方法及系统,在自然语言处理、知识图谱与图像识别等先进技术基础上,引入ai大语言模型校对功能,运用高质量大规模语料训练,大幅提升特定行业发布内容的校对能力。
2、本申请第一方面提供一种稿件审校方法,应用于稿件审校系统,其特征在于,包括:
3、获取用户输入的待审校文本;
4、调用常见错误检查算法对待审校文本中是否存在音近字和形近字进行检查;
5、调用机械检查算法和状态机算法,将待审校文本中的词与自定义词库中的专有名词进行比对,对待审校文本中是否存在自定义易错词和目标词汇进行检查;
6、输出待审校
7、其中,调用常见错误检查算法对待审校文本中是否存在音近字和形近字进行检查包括:
8、将待审校文本分句得到原始句;
9、对原始句进行句子转换得到对照句和错字建议,计算对照句与原始句,判定是否采用错字建议。
10、其中,调用机械检查算法和状态机算法包括:
11、基于机械检查算法初步校正待审校文本,判断可能错误并提供建议词,得到初审文本;
12、基于状态机算法对初审文本进行二次校正,通过状态机的状态转移和匹配来判断错误并提供报告。
13、其中,对原始句进行句子转换得到对照句包括:
14、根据模型词表将原始句转换得到句子整数向量,对句子整数向量分词并筛选得到原始字;
15、当原始字为单字,直接输出为待处理字;
16、当原始字为非单字,判断得到待处理字;
17、获取待处理字对应的拼音,将拼音替换原始字得到新句子整数向量;
18、将新句子整数向量输入预设模型,输出新句子和错字建议,将新句子转换为对照句。
19、其中,基于机械检查算法初步校正待审校文本包括:
20、基于原始句字数选择初始化动作;
21、选择构建候选词状态机、原始词状态机或构建机械检查矩阵进行词语匹配和校验,得到可能错误和建议词。
22、其中,计算对照句与原始句,判定是否采用改错字建议包括:
23、基于可信度计算判断对照句与原始句是否相同;
24、若相同则没有找到错误;
25、若不同,分别对照句与原始句进行分词得到分词结果,将分词结果输入kenlm模型中计算句子得分,并比较句子得分的得分差值;
26、当得分差值超过预设阈值,采用错字建议。
27、其中,判断得到待处理字包括:
28、判断原始字是否存在;
29、若存在判断为正常单词不需要处理,若不存在判断是否为专有名词;
30、若是判断为正常单词不需要处理,若不是判断原始字的首尾字是否在易错字字典库中,确认是时输出原始字的首尾字为待处理字;
31、以及,当原始字以“象”开头,输出“象”为待处理字。
32、其中,基于原始句字数选择初始化动作包括:
33、获取原始句字数;
34、当原始句字数等于2时,构建候选词状态机和原始词状态机;
35、当原始句字数大于2时,构建机械检查矩阵。
36、其中,基于状态机算法对初审文本进行二次校正包括:
37、构建初始树;
38、将初审文本分词后加入到初始树中作为节点,得到节点树;
39、基于节点树构建状态机,将节点树中的节点和边的信息转化为状态机的状态和转移规则。
40、基于状态机进行遍历匹配,对给定的字符串进行词汇匹配。
41、本申请第二方面提供一种稿件审校系统,适用于如权利要求1的稿件审校方法,其特征在于,包括:
42、前台展现层,用于实现用户界面展现,包括编辑器、检查结果标注和自定义词库;
43、核心业务层,通过api与前台展现层连接,用于提供业务处理能力;
44、数据层,用于提供系统业务处理能力,实现多种维度、多种目标的检查逻辑;
45、管理支撑层,服务于核心业务层和数据层,用于提供系统管理与控制能力。
46、本申请提供的技术方案可以包括以下有益效果:
47、本申请提供一种稿件审校方法及系统,以大语言模型为技术底座,通过运用高质量数据学习多种特色子任务,大幅提升中文校对和润色能力的智能化程度。在新闻出版、媒体稿件、政务公文等专业领域,能辅助专业用户提高校对质量、提升校对速度、降低差错率,重点解决用词不当、句式杂糅等措辞与表述问题,让句子表达更流畅,为当前及今后语言文字工作高质量发展赋能。
48、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
本文档来自技高网...【技术保护点】
1.一种稿件审校方法,应用于稿件审校系统,其特征在于,包括:
2.如权利要求1所述的稿件审校方法,其特征在于,所述调用常见错误检查算法对所述待审校文本中是否存在音近字和形近字进行检查包括:
3.如权利要求1所述的稿件审校方法,其特征在于,所述调用机械检查算法和状态机算法包括:
4.如权利要求2所述的稿件审校方法,其特征在于,所述对所述原始句进行句子转换得到对照句包括:
5.如权利要求3所述的稿件审校方法,其特征在于,所述基于机械检查算法初步校正所述待审校文本包括:
6.根据权利要求2所述的稿件审校方法,其特征在于,所述计算所述对照句与所述原始句,判定是否采用改错字建议包括:
7.根据权利要求4所述的稿件审校方法,其特征在于,所述判断得到待处理字包括:
8.如权利要求5所述的稿件审校方法,其特征在于,所述基于所述原始句字数选择初始化动作包括:
9.如权利要求3所述的稿件审校方法,其特征在于,所述基于状态机算法对所述初审文本进行二次校正包括:
10.一种稿件审校系统,适用于如权
...【技术特征摘要】
1.一种稿件审校方法,应用于稿件审校系统,其特征在于,包括:
2.如权利要求1所述的稿件审校方法,其特征在于,所述调用常见错误检查算法对所述待审校文本中是否存在音近字和形近字进行检查包括:
3.如权利要求1所述的稿件审校方法,其特征在于,所述调用机械检查算法和状态机算法包括:
4.如权利要求2所述的稿件审校方法,其特征在于,所述对所述原始句进行句子转换得到对照句包括:
5.如权利要求3所述的稿件审校方法,其特征在于,所述基于机械检查算法初步校正所述待审校文本包括:
【专利技术属性】
技术研发人员:孟肖虎,阚守辉,马建中,张涛,杨光沐宇,田增海,
申请(专利权)人:中国能源传媒集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。