语句通顺度判别方法及系统技术方案

技术编号：27743445 阅读：11 留言：0更新日期：2021-03-19 13:37

本发明专利技术一种语句通顺度判别方法及系统，包括：对每一搜集的文本预处理，预处理包括分词和词性标注；据预处理后文本，利用语言模型训练工具，分别按照词和词性划分以3‑gram模型进行词语出现的频率统计；计算每一文本分别按词和词性划分在3‑gram模型下的文本通顺度概率，考虑到不同句子长度对结果的影响，将每一文本分别按词和词性划分下文本通顺度概率除以对应文本的句子长度作为对应文本分别按词和词性划分下的语句通顺度概率，将每一文本按词划分下的语句通顺度概率和按词性划分下的语句通顺度概率加权求和以得到对应文本的最终语句通顺度概率；计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。

全部详细技术资料下载

【技术实现步骤摘要】
语句通顺度判别方法及系统
本专利技术属于自然语言处理中的语言模型
，特别是涉及一种语句通顺度判别方法及系统。
技术介绍
在人机对话系统中，由于语音识别部分存在识别失误或者不明来源的语音使得识别得到的文本语句杂乱、不通顺，比如：“我想要啊要办理我先来”，“天天气真办好啊”，“啊我吗有是哦”。上述非正、不通顺的语句的出现会导致对话系统不能正确解析出其含义。当在用户没有与对话系统进行交互时，对于无语音唤醒的对话系统来说，对这种语句进行识别并返回结果会严重影响用户体验。
技术实现思路
本专利技术针对现有技术存在的问题和不足，提供一种新型的语句通顺度判别方法及系统。本专利技术是通过下述技术方案来解决上述技术问题的：本专利技术提供一种语句通顺度判别方法，其特点在于，其包括以下步骤：S1、搜集多个文本作为训练语料，对每一文本进行预处理，其中预处理包括分词和词性标注；S2、根据预处理后的文本，利用语言模型训练工具，分别按照词和词性划分以3-gram模型进行词语出现的频率统计，将统计结果保存；S3、计算每一文本分别按照词和词性划分在3-gram模型下的文本通顺度概率，考虑到不同句子长度对结果的影响，将每一文本分别按照词和词性划分下文本通顺度概率除以对应的文本的句子长度作为对应文本分别按照词和词性划分下的语句通顺度概率，将每一文本按照词划分下的语句通顺度概率和按照词性划分下的语句通顺度概率进行加权求和以得到对应文本的最终语句通顺度概率；S4、计算该些文本的最终语句...

【技术保护点】
1.一种语句通顺度判别方法，其特征在于，其包括以下步骤：/nS1、搜集多个文本作为训练语料，对每一文本进行预处理，其中预处理包括分词和词性标注；/nS2、根据预处理后的文本，利用语言模型训练工具，分别按照词和词性划分以3-gram模型进行词语出现的频率统计，将统计结果保存；/nS3、计算每一文本分别按照词和词性划分在3-gram模型下的文本通顺度概率，将每一文本分别按照词和词性划分下文本通顺度概率除以对应的文本的句子长度作为对应文本分别按照词和词性划分下的语句通顺度概率，将每一文本按照词划分下的语句通顺度概率和按照词性划分下的语句通顺度概率进行加权求和以得到对应文本的最终语句通顺度概率；/nS4、计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。/n

【技术特征摘要】
1.一种语句通顺度判别方法，其特征在于，其包括以下步骤：
S1、搜集多个文本作为训练语料，对每一文本进行预处理，其中预处理包括分词和词性标注；
S2、根据预处理后的文本，利用语言模型训练工具，分别按照词和词性划分以3-gram模型进行词语出现的频率统计，将统计结果保存；
S3、计算每一文本分别按照词和词性划分在3-gram模型下的文本通顺度概率，将每一文本分别按照词和词性划分下文本通顺度概率除以对应的文本的句子长度作为对应文本分别按照词和词性划分下的语句通顺度概率，将每一文本按照词划分下的语句通顺度概率和按照词性划分下的语句通顺度概率进行加权求和以得到对应文本的最终语句通顺度概率；
S4、计算该些文本的最终语句通顺度概率的平均值作为判断句子好坏的阈值。

2.如权利要求1所述的语句通顺度判别方法，其特征在于，S5、根据步骤S3中的计算方式，计算待判别语句的最终语句通顺度概率，对比待判别语句的最终语句通顺度概率与阈值以判别待判别语句是否语句通顺，若待判别语句的最终语句通顺度概率大于阈值则判定语句通顺，若待判别语句的最终语句通顺度概率小于阈值则判定语句不通顺。

3.如权利要求1所述的语句通顺度判别方法，其特征在于，语言模型训练工具采用srilm。

4.一种语句通顺度判别系统，其特征在于，其包括预处理模块...

【专利技术属性】
技术研发人员：李小华，陈怡，李霞，王驹冬，
申请(专利权)人：上海卓繁信息技术股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人