System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本纠正方法、装置、设备及存储介质制造方法及图纸_技高网

文本纠正方法、装置、设备及存储介质制造方法及图纸

技术编号:40980244 阅读:11 留言:0更新日期:2024-04-18 21:26
本发明专利技术涉及文本处理技术领域,提供一种文本纠正方法、装置、设备及存储介质。所述方法包括:获取待纠正的文本数据和预设的字典配置文件;提取所述文本数据的拼音首字母信息,并基于所述首字母信息,对所述字典配置文件中配置的专有词语进行搜索,得到候选词语列表;根据所述候选词语列表对所述文本数据中的专有词语进行纠正。通过字典配置文件中配置的专有词语,对文本数据中的专有词语进行纠正,而不是在语音识别服务接口中携带用于纠正的热词参数,避免了对语音识别服务的接口性能造成影响,同时,有利于专有词语在字典配置文件中的扩展和灵活配置。

【技术实现步骤摘要】

本专利技术涉及文本处理,尤其涉及一种文本纠正方法、装置、设备及存储介质


技术介绍

1、自动语音识别技术(asr:automatic speech recognition)是一种将语音转换为文本的技术。目前,语音转文字服务已较为成熟,对于通用的文字识别,准确率可以达到95%以上。但是对于特定领域的专业词汇,识别效果往往不理想,为后续的处理过程造成不便。

2、现有的解决方案是在asr服务中提供热词参数来尝试减少该问题,比如允许用户在调用asr服务接口时,在接口中携带需要优先匹配的行业专业词汇。但是该方式下,用户在调用接口时,往往很难预知需要收集哪些专业词汇,而接口中能携带的热词数量也有限制,不利于专有词汇的扩展及灵活配置,且每次接口调用时都需要通过接口同时传递热词参数,容易影响接口的性能。


技术实现思路

1、本专利技术提供一种文本纠正方法、装置、设备及存储介质,用以解决现有技术中通过接口传递热词参数的专有词汇纠正方式,不利于对专有词语的扩展和灵活配置,且容易影响语音识别服务接口的性能的缺陷。

2、本专利技术提供一种文本纠正方法,包括:

3、获取待纠正的文本数据和预设的字典配置文件;

4、提取所述文本数据的拼音首字母信息,并基于所述首字母信息,对所述字典配置文件中配置的专有词语进行搜索,得到候选词语列表;

5、根据所述候选词语列表对所述文本数据中的专有词语进行纠正。

6、根据本专利技术提供的文本纠正方法,所述根据所述候选词语列表对所述文本数据中的专有词语进行纠正,包括:

7、获取所述候选词语列表中各候选词语的第一汉语拼音信息,以及所述文本数据中各词语的第二汉语拼音信息;

8、基于所述第一汉语拼音信息和所述第二汉语拼音信息,计算所述文本数据中各词语与所述候选词语的拼音相似度;

9、若所述拼音相似度大于预设阈值,则利用所述候选词语对所述文本数据中的词语进行替换,以对所述文本数据中的专有词语进行纠正。

10、根据本专利技术提供的文本纠正方法,所述第一汉语拼音信息和所述第二汉语拼音信息均包括辅音字母、元音字母和声调信息。

11、根据本专利技术提供的文本纠正方法,所述基于所述首字母信息,对所述字典配置文件中配置的专有词语进行搜索,得到候选词语列表,包括:

12、根据所述字典配置文件中配置的专有词语,构建所述专有词语的字典树;

13、基于所述首字母信息,对所述字典树进行首字母搜索,得到与所述首字母信息匹配的候选词语列表。

14、根据本专利技术提供的文本纠正方法,所述根据所述字典配置文件中配置的专有词语,构建所述专有词语的字典树,包括:

15、获取所述字典配置文件中各行业的专有词语,并提取所述专有词语的目标首字母信息;

16、对所述目标首字母信息中的首个字母相同的专有词语进行汇总,并以所述首个字母为根节点,按照各所述专有词语的首字母顺序,以目标字母为叶子节点,生成所述专有词语的字典树;所述目标字母为所述专有词语的首字母中除所述首个字母之外的其他字母。

17、根据本专利技术提供的文本纠正方法,所述基于所述首字母信息,对所述字典树进行首字母搜索,得到与所述首字母信息匹配的候选词语列表,包括:

18、获取预设的窗口尺寸,并基于所述窗口尺寸的目标窗口对所述首字母信息进行滑窗处理;

19、在所述目标窗口的滑动过程中,将所述目标窗口内的首字母与所述字典树进行匹配,以对所述字典树进行首字母搜索,得到与所述目标窗口内的首字母匹配的候选词语;

20、基于预设的梯度值对所述窗口尺寸进行调整,返回并执行所述基于所述窗口尺寸的目标窗口对所述首字母信息进行滑窗处理的步骤,直到所述窗口尺寸达到预设尺寸时,根据所述候选词语生成与所述首字母信息匹配的候选词语列表。

21、根据本专利技术提供的文本纠正方法,所述获取待纠正的文本数据,包括:

22、获取待识别的语音数据;

23、对所述语音数据进行语音识别,得到待纠正的文本数据。

24、本专利技术还提供一种文本纠正装置,包括:

25、文本获取模块,用于获取待纠正的文本数据和预设的字典配置文件;

26、字典搜索模块,用于提取所述文本数据的拼音首字母信息,并基于所述首字母信息,对所述字典配置文件中配置的专有词语进行搜索,得到候选词语列表;

27、文本纠正模块,用于根据所述候选词语列表对所述文本数据中的专有词语进行纠正。

28、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本纠正方法的步骤。

29、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本纠正方法的步骤。

30、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本纠正方法的步骤。

31、本专利技术提供的文本纠正方法、装置、设备及存储介质,通过提取待纠正的文本数据的首字母信息,并将其与预设的字典配置文件中配置的专有词语进行匹配搜索,得到候选词语列表,对文本数据中的专有词语进行纠正。基于字典配置文件,对文本数据中的专有词语进行纠正,而不是在语音识别服务接口中携带用于纠正的热词参数,避免了对语音识别服务的接口性能造成影响,同时,有利于专有词语在字典配置文件中的扩展和灵活配置。

本文档来自技高网...

【技术保护点】

1.一种文本纠正方法,其特征在于,包括:

2.根据权利要求1所述的文本纠正方法,其特征在于,所述根据所述候选词语列表对所述文本数据中的专有词语进行纠正,包括:

3.根据权利要求2所述的文本纠正方法,其特征在于,所述第一汉语拼音信息和所述第二汉语拼音信息均包括辅音字母、元音字母和声调信息。

4.根据权利要求1所述的文本纠正方法,其特征在于,所述基于所述首字母信息,对所述字典配置文件中配置的专有词语进行搜索,得到候选词语列表,包括:

5.根据权利要求4所述的文本纠正方法,其特征在于,所述根据所述字典配置文件中配置的专有词语,构建所述专有词语的字典树,包括:

6.根据权利要求4所述的文本纠正方法,其特征在于,所述基于所述首字母信息,对所述字典树进行首字母搜索,得到与所述首字母信息匹配的候选词语列表,包括:

7.根据权利要求1所述的文本纠正方法,其特征在于,所述获取待纠正的文本数据,包括:

8.一种文本纠正装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文本纠正方法的步骤。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本纠正方法的步骤。

...

【技术特征摘要】

1.一种文本纠正方法,其特征在于,包括:

2.根据权利要求1所述的文本纠正方法,其特征在于,所述根据所述候选词语列表对所述文本数据中的专有词语进行纠正,包括:

3.根据权利要求2所述的文本纠正方法,其特征在于,所述第一汉语拼音信息和所述第二汉语拼音信息均包括辅音字母、元音字母和声调信息。

4.根据权利要求1所述的文本纠正方法,其特征在于,所述基于所述首字母信息,对所述字典配置文件中配置的专有词语进行搜索,得到候选词语列表,包括:

5.根据权利要求4所述的文本纠正方法,其特征在于,所述根据所述字典配置文件中配置的专有词语,构建所述专有词语的字典树,包括:

6.根据权利要求...

【专利技术属性】
技术研发人员:李玥刘翔马志添邱汉彬
申请(专利权)人:广州数鹏通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1