语句通顺度判别方法及系统技术方案

技术编号:27743445 阅读:11 留言:0更新日期:2021-03-19 13:37
本发明专利技术一种语句通顺度判别方法及系统,包括:对每一搜集的文本预处理,预处理包括分词和词性标注;据预处理后文本,利用语言模型训练工具,分别按照词和词性划分以3‑gram模型进行词语出现的频率统计;计算每一文本分别按词和词性划分在3‑gram模型下的文本通顺度概率,考虑到不同句子长度对结果的影响,将每一文本分别按词和词性划分下文本通顺度概率除以对应文本的句子长度作为对应文本分别按词和词性划分下的语句通顺度概率,将每一文本按词划分下的语句通顺度概率和按词性划分下的语句通顺度概率加权求和以得到对应文本的最终语句通顺度概率;计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。

【技术实现步骤摘要】
语句通顺度判别方法及系统
本专利技术属于自然语言处理中的语言模型
,特别是涉及一种语句通顺度判别方法及系统。
技术介绍
在人机对话系统中,由于语音识别部分存在识别失误或者不明来源的语音使得识别得到的文本语句杂乱、不通顺,比如:“我想要啊要办理我先来”,“天天气真办好啊”,“啊我吗有是哦”。上述非正、不通顺的语句的出现会导致对话系统不能正确解析出其含义。当在用户没有与对话系统进行交互时,对于无语音唤醒的对话系统来说,对这种语句进行识别并返回结果会严重影响用户体验。
技术实现思路
本专利技术针对现有技术存在的问题和不足,提供一种新型的语句通顺度判别方法及系统。本专利技术是通过下述技术方案来解决上述技术问题的:本专利技术提供一种语句通顺度判别方法,其特点在于,其包括以下步骤:S1、搜集多个文本作为训练语料,对每一文本进行预处理,其中预处理包括分词和词性标注;S2、根据预处理后的文本,利用语言模型训练工具,分别按照词和词性划分以3-gram模型进行词语出现的频率统计,将统计结果保存;S3、计算每一文本分别按照词和词性划分在3-gram模型下的文本通顺度概率,考虑到不同句子长度对结果的影响,将每一文本分别按照词和词性划分下文本通顺度概率除以对应的文本的句子长度作为对应文本分别按照词和词性划分下的语句通顺度概率,将每一文本按照词划分下的语句通顺度概率和按照词性划分下的语句通顺度概率进行加权求和以得到对应文本的最终语句通顺度概率;S4、计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。较佳地,S5、根据步骤S3中的计算方式,计算待判别语句的最终语句通顺度概率,对比待判别语句的最终语句通顺度概率与阈值以判别待判别语句是否语句通顺,若待判别语句的最终语句通顺度概率大于阈值则判定语句通顺,若待判别语句的最终语句通顺度概率小于阈值则判定语句不通顺。较佳地,语言模型训练工具采用srilm。本专利技术还提供一种语句通顺度判别系统,其特点在于,其包括预处理模块、统计模块、第一计算模块和第二计算模块;所述预处理模块用于搜集多个文本作为训练语料,对每一文本进行预处理,其中预处理包括分词和词性标注;所述统计模块用于根据预处理后的文本,利用语言模型训练工具,分别按照词和词性划分以3-gram模型进行词语出现的频率统计,将统计结果保存;所述第一算模块用于计算每一文本分别按照词和词性划分在3-gram模型下的文本通顺度概率,考虑到不同句子长度对结果的影响,将每一文本分别按照词和词性划分下文本通顺度概率除以对应的文本的句子长度作为对应文本分别按照词和词性划分下的语句通顺度概率,将每一文本按照词划分下的语句通顺度概率和按照词性划分下的语句通顺度概率进行加权求和以得到对应文本的最终语句通顺度概率;所述第二计算模块用于计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。较佳地,所述语句通顺度判别系统还包括对比模块;所述第一计算模块用于计算待判别语句的最终语句通顺度概率,所述对比模块用于对比待判别语句的最终语句通顺度概率与阈值以判别待判别语句是否语句通顺,在待判别语句的最终语句通顺度概率大于阈值时判定语句通顺,在待判别语句的最终语句通顺度概率小于阈值时判定语句不通顺。较佳地,语言模型训练工具采用srilm。在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本专利技术各较佳实例。本专利技术的积极进步效果在于:本专利技术通过模型判断用户语音输入语句是否通顺,解决人机对话过程中出现不明来源语音识别结果以及语义识别准确率导致的语句不通顺的处理策略,从而提高人机对话的用户体验度。附图说明图1为本专利技术较佳实施例的语句通顺度判别方法的流程图。图2为本专利技术较佳实施例的语句通顺度判别系统的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本实施例提供一种语句通顺度判别方法,其包括以下步骤:步骤101、搜集多个文本作为训练语料,对每一文本进行预处理,其中预处理包括分词和词性标注。步骤102、根据预处理后的文本,利用srilm语言模型训练工具,分别按照词和词性划分以3-gram模型进行词语出现的频率统计,将统计结果保存。步骤103、计算每一文本分别按照词和词性划分在3-gram模型下的文本通顺度概率,考虑到不同句子长度对结果的影响,将每一文本分别按照词和词性划分下文本通顺度概率除以对应的文本的句子长度作为对应文本分别按照词和词性划分下的语句通顺度概率,将每一文本按照词划分下的语句通顺度概率和按照词性划分下的语句通顺度概率进行加权求和以得到对应文本的最终语句通顺度概率。步骤104、计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。步骤105、根据步骤103中的计算方式,计算待判别语句的最终语句通顺度概率,对比待判别语句的最终语句通顺度概率与阈值以判别待判别语句是否语句通顺,若待判别语句的最终语句通顺度概率大于阈值则判定语句通顺,若待判别语句的最终语句通顺度概率小于阈值则判定语句不通顺。如图2所示,本实施例还提供一种语句通顺度判别系统,其包括预处理模块1、统计模块2、第一计算模块3、第二计算模块4和对比模块5。所述预处理模块1用于搜集多个文本作为训练语料,对每一文本进行预处理,其中预处理包括分词和词性标注。所述统计模块2用于根据预处理后的文本,利用srilm语言模型训练工具,分别按照词和词性划分以3-gram模型进行词语出现的频率统计,将统计结果保存。所述第一算模块3用于计算每一文本分别按照词和词性划分在3-gram模型下的文本通顺度概率,考虑到不同句子长度对结果的影响,将每一文本分别按照词和词性划分下文本通顺度概率除以对应的文本的句子长度作为对应文本分别按照词和词性划分下的语句通顺度概率,将每一文本按照词划分下的语句通顺度概率和按照词性划分下的语句通顺度概率进行加权求和以得到对应文本的最终语句通顺度概率。所述第二计算模块4用于计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。所述第一计算模块3用于计算待判别语句的最终语句通顺度概率,所述对比模块5用于对比待判别语句的最终语句通顺度概率与阈值以判别待判别语句是否语句通顺,在待判别语句的最终语句通顺度概率大于阈值时判定语句通顺,在待判别语句的最终语句通顺度概率小于阈值时判定语句不通顺。本专利技术通过模型判断用户语音输入语句是否通顺,解决人机对话过程中出现不明来源语音识别结果以及语义识别准确率导致的语句不通顺的处理策略,从而提高人机对话本文档来自技高网...

【技术保护点】
1.一种语句通顺度判别方法,其特征在于,其包括以下步骤:/nS1、搜集多个文本作为训练语料,对每一文本进行预处理,其中预处理包括分词和词性标注;/nS2、根据预处理后的文本,利用语言模型训练工具,分别按照词和词性划分以3-gram模型进行词语出现的频率统计,将统计结果保存;/nS3、计算每一文本分别按照词和词性划分在3-gram模型下的文本通顺度概率,将每一文本分别按照词和词性划分下文本通顺度概率除以对应的文本的句子长度作为对应文本分别按照词和词性划分下的语句通顺度概率,将每一文本按照词划分下的语句通顺度概率和按照词性划分下的语句通顺度概率进行加权求和以得到对应文本的最终语句通顺度概率;/nS4、计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。/n

【技术特征摘要】
1.一种语句通顺度判别方法,其特征在于,其包括以下步骤:
S1、搜集多个文本作为训练语料,对每一文本进行预处理,其中预处理包括分词和词性标注;
S2、根据预处理后的文本,利用语言模型训练工具,分别按照词和词性划分以3-gram模型进行词语出现的频率统计,将统计结果保存;
S3、计算每一文本分别按照词和词性划分在3-gram模型下的文本通顺度概率,将每一文本分别按照词和词性划分下文本通顺度概率除以对应的文本的句子长度作为对应文本分别按照词和词性划分下的语句通顺度概率,将每一文本按照词划分下的语句通顺度概率和按照词性划分下的语句通顺度概率进行加权求和以得到对应文本的最终语句通顺度概率;
S4、计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。


2.如权利要求1所述的语句通顺度判别方法,其特征在于,S5、根据步骤S3中的计算方式,计算待判别语句的最终语句通顺度概率,对比待判别语句的最终语句通顺度概率与阈值以判别待判别语句是否语句通顺,若待判别语句的最终语句通顺度概率大于阈值则判定语句通顺,若待判别语句的最终语句通顺度概率小于阈值则判定语句不通顺。


3.如权利要求1所述的语句通顺度判别方法,其特征在于,语言模型训练工具采用srilm。


4.一种语句通顺度判别系统,其特征在于,其包括预处理模块...

【专利技术属性】
技术研发人员:李小华陈怡李霞王驹冬
申请(专利权)人:上海卓繁信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1