一种图片转语音的方法及系统技术方案

技术编号：42025462 阅读：10 留言：0更新日期：2024-07-16 23:15

本发明专利技术提出一种图片转语音的方法及系统，属于信息技术领域，包括:获取图片，对图片进行预处理与增强；经过预处理和增强的图片送入深度学习OCR模型进行文字识别获取文本信息，所述OCR模型采用卷积神经网络和循环神经网络的结合来构建，使用多个不同结构或训练策略的OCR模型组成一个模型池，通过集成学习技术，综合多个模型的输出，优化最终的文字识别结果；将识别出的文本信息输入语音合成模块进行转换，转换为语音波形，以实现对图片中文字的准确识别和流流畅语音输出，提升系统的性能和用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息，具体涉及一种图片转语音的方法及系统。

技术介绍

1、随着信息技术的飞速发展，图片作为一种重要的信息载体，在日常生活和工作中得到了广泛应用。然而，对于视觉障碍者或在不便阅读文字的场景下，图片中的文字信息可能无法被有效获取。因此，将图片中的文字转换为语音输出，成为了一种迫切的需求。

2、近年来，随着人工智能和深度学习技术的快速发展，ocr和tts技术得到了显著提升。通过训练大量的深度学习模型，可以实现对图片中文字的高精度识别，并生成更加自然和流畅的语音输出。此外，web技术的不断进步，如web worker和webassembly（wasm）的应用，使得在web环境中实现高效、实时的图片转语音处理成为可能。

技术实现思路

1、本专利技术针对现有技术下的问题，在这样的技术背景下，本专利技术提出了一种基于web的图片转语音方法及系统，通过整合多种ocr模型和tts技术，构建一个高效且可扩展的ocr文字识别模型池，以实现对图片中文字的准确识别和流流畅语音输出。同时，利用webworker和wasm技术实现后台处理和高效计算，提升系统的性能和用户体验。

2、为了达到上述目的，本申请采用的技术方案为：

3、第一方面，本专利技术提供了一种图片转语音的方法，包括:

4、获取图片，对图片进行预处理与增强；

5、经过预处理和增强的图片送入深度学习ocr模型进行文字识别获取文本信息，所述ocr模型通过采用卷积神经网络(cnn)

6、进一步的，使用多个不同结构或训练策略的ocr模型如tesseract、attention、east等模型组成一个模型池，通过集成学习技术，综合多个模型的输出，优化最终的文字识别结果；

7、将识别出的文本信息输入语音合成模块进行转换，转换为语音波形。

8、进一步的，所述图片采用web浏览器在线平台获取，用户可上传图片，上传图片后，系统会立即进行格式验证；同时，系统提供的预览功能让用户能够在上传后立即查看图片内容，确保上传的图片是正确的内容。

9、进一步的，所述图片预处理与增强包括：

10、根据ocr模型的要求对图片进行尺寸调整；

11、执行二值化或去噪算法，通过分析图片的像素分布和特征，有效地去除噪声点；

12、使用用对比度增强算法，通过拉伸图像的直方图、调整像素亮度手段增强文字信息；

13、执行色彩空间转换，根据图片信息进行rgb色彩空间转换，以方便识别；

14、执行倾斜校正，确保图片文字行与水平方向平行，提高识别率。

15、进一步的，在文字识别过程中，采用连接时序分类或attention机制技术手段进行对齐文字序列。

16、进一步的，所述语音合成模块采用tts引擎以执行语音合成；

17、对识别出的文本进行预处理和分析，包括分词、词性标和、语法分析步骤；

18、结合声学模型和语言模型来生成对应的语音波形；声学模型负责将文本信息转换为声学特征表示，而语言模型则用于捕捉语音中的语言结构和上下文关系；声学模型和语言模型采用基于规则的方法或统计参数方法进行构建和训练；

19、应用动态范围压缩和噪声抑制后处理技术来改善音质，提升语音的质量和可听性；

20、最终生成的语音波形通过终端设备播放给用户听，或者以语音文件的形式保存下来供后续使用。

21、第二方面，本专利技术提供了一种图片转语音的系统，包括：

22、获取模块，被配置为：获取图片，对图片进行预处理与增强；

23、处理模块，被配置为：经过预处理和增强的图片送入深度学习ocr模型进行文字识别获取文本信息，所述ocr模型采用卷积神经网络和循环神经网络的结合来构建，使用多个不同结构或训练策略的ocr模型组成一个模型池，通过集成学习技术，综合多个模型的输出，优化最终的文字识别结果；

24、语音合成模块，被配置为：将识别出的文本信息输入语音合成模块进行转换，转换为语音波形。

25、第三方面，本专利技术提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行第一方面所述的图片转语音的方法。

26、第四方面，本专利技术提供了一种电子设备，包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被处理器执行时，触发电子设备执行第一方面所述的图片转语音的方法。

27、与现有技术相比，本专利技术的优点和积极效果在于：

28、本专利技术提供了一种基于web的图片转语音方法，
技术实现思路
涵盖了系统架构、ocr模型池设计与构建、web worker与wasm应用以及用户界面与交互设计等多个方面。通过整合多种技术和创新设计，提供了一种高效、准确、易用的基于web的图片转语音解决方案，为视觉障碍者阅读、多语言信息处理、自动化文档处理等领域带来了新的可能性，通过整合多种ocr模型和tts技术，构建一个高效且可扩展的ocr文字识别模型池，以实现对图片中文字的准确识别和流流畅语音输出。同时，利用web worker和wasm技术实现后台处理和高效计算，提升系统的性能和用户体验。

本文档来自技高网...

【技术保护点】

1.一种图片转语音的方法，其特征在于，包括:

2.根据权利要求1所述的一种图片转语音的方法，其特征在于，所述图片采用Web浏览器在线平台获取，用户可上传图片，上传图片后，系统会立即进行格式验证；同时，系统提供的预览功能让用户能够在上传后立即查看图片内容，确保上传的图片是正确的内容。

3.根据权利要求1所述的一种图片转语音的方法，其特征在于，所述图片预处理与增强包括：

4.根据权利要求1所述的一种图片转语音的方法，其特征在于，在文字识别过程中，采用连接时序分类或Attention机制技术手段进行对齐文字序列。

5.根据权利要求1所述的一种图片转语音的方法，其特征在于，所述语音合成模块采用TTS引擎以执行语音合成；

6.一种图片转语音的系统，其特征在于，包括：

7.一种计算机可读存储介质，其特征在于，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行权利要求1-5中任意一项所述的图片转语音的方法。

8.一种电子设备，其特征在于，包括用于存储计算机程序指令的存储器和用

...

【技术特征摘要】

1.一种图片转语音的方法，其特征在于，包括:

2.根据权利要求1所述的一种图片转语音的方法，其特征在于，所述图片采用web浏览器在线平台获取，用户可上传图片，上传图片后，系统会立即进行格式验证；同时，系统提供的预览功能让用户能够在上传后立即查看图片内容，确保上传的图片是正确的内容。

3.根据权利要求1所述的一种图片转语音的方法，其特征在于，所述图片预处理与增强包括：

4.根据权利要求1所述的一种图片转语音的方法，其特征在于，在文字识别过程中，采用连接时序分类或attention机制技术手段进行对齐文字序列。

...

【专利技术属性】
技术研发人员：范开鑫，魏子重，李锐，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人