用于输出信息的方法和装置制造方法及图纸

技术编号：27227742 阅读：17 留言：0更新日期：2021-02-04 11:51

本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括：响应于接收到用户发起的点读请求，获取对目标文字进行拍摄所获得的图像作为待识别图像，其中，目标文字是用户指向的文字；对待识别图像中的目标文字进行检测，获得包围目标文字的多边形框；确定多边形框所对应的多边形区域的面积；基于所确定的面积，确定目标文字的字号作为目标字号；基于目标字号，生成及输出针对目标文字的点读结果。该实施方式在生成点读结果的过程中考虑到了文字的字号，引入更多的与点读结果相关的数据，进而可以输出更为准确、有效的点读结果，有助于提高用户体验。有助于提高用户体验。有助于提高用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
用于输出信息的方法和装置

[0001]本公开的实施例涉及计算机
，尤其涉及用于输出信息的方法和装置。

技术介绍

[0002]书本、电子文档等包括文字的物体通常包括封面和正文。相对而言，封面上的文字通常是大字号的文字，正文中的文字通常是小字号的文字。
[0003]现有技术中，用于实现文字点读的模型通常是针对正文中的小字号文字训练得到的模型。

技术实现思路

[0004]本公开的实施例提出了用于输出信息的方法和装置。
[0005]第一方面，本公开的实施例提供了一种用于输出信息的方法，该方法包括：响应于接收到用户发起的点读请求，获取对目标文字进行拍摄所获得的图像作为待识别图像，其中，目标文字是用户指向的文字；对待识别图像中的目标文字进行检测，获得包围目标文字的多边形框；确定多边形框所对应的多边形区域的面积；基于所确定的面积，确定目标文字的字号作为目标字号；基于目标字号，生成及输出针对目标文字的点读结果。
[0006]在一些实施例中，基于目标字号，生成及输出针对目标文字的点读结果包括：响应于目标字号小于或等于预设字号，将多边形区域输入预先训练的第一文字识别模型，获得第一识别文字；获取第一识别文字所对应的音频；将第一识别文字所对应的音频作为点读结果输出。
[0007]在一些实施例中，基于目标字号，生成及输出针对目标文字的点读结果包括：响应于目标字号大于预设字号，对多边形区域进行缩放，获得缩放后多边形区域；将缩放后多边形区域输入第一文字识别模型，获得第二识别文字；获取第二识别文...

【技术保护点】

【技术特征摘要】
1.一种用于输出信息的方法，包括：响应于接收到用户发起的点读请求，获取对目标文字进行拍摄所获得的图像作为待识别图像，其中，所述目标文字是所述用户指向的文字；对所述待识别图像中的目标文字进行检测，获得包围所述目标文字的多边形框；确定所述多边形框所对应的多边形区域的面积；基于所确定的面积，确定所述目标文字的字号作为目标字号；基于所述目标字号，生成及输出针对所述目标文字的点读结果。2.根据权利要求1所述的方法，其中，所述基于所述目标字号，生成及输出针对所述目标文字的点读结果包括：响应于所述目标字号小于或等于预设字号，将所述多边形区域输入预先训练的第一文字识别模型，获得第一识别文字；获取所述第一识别文字所对应的音频；将所述第一识别文字所对应的音频作为点读结果输出。3.根据权利要求2所述的方法，其中，所述基于所述目标字号，生成及输出针对所述目标文字的点读结果包括：响应于所述目标字号大于预设字号，对所述多边形区域进行缩放，获得缩放后多边形区域；将所述缩放后多边形区域输入所述第一文字识别模型，获得第二识别文字；获取所述第二识别文字所对应的音频；将所述第二识别文字所对应的音频作为点读结果输出。4.根据权利要求1所述的方法，其中，所述基于所述目标字号，生成及输出针对所述目标文字的点读结果包括：响应于所述目标字号大于预设字号，将所述多边形区域输入预先训练的第二文字识别模型，获得第三识别文字；获取所述第三识别文字所对应的音频；将所述第三识别文字所对应的音频作为点读结果输出。5.根据权利要求1-4之一所述的方法，其中，所述基于所述目标字号，生成及输出针对所述目标文字的点读结果包括：响应于所述目标字号大于预设字号，将预先设置的提示信息作为点读结果输出，其中，所述提示信息用于提示所述用户指向新文字，新文字所对应的字号小于或等于所述目标字号。6.一种用于输出信息的装置，包括：获取单元，被配置成响应于接收到用户发起的点读请求，获取对目标文字进行拍摄所获得的图像作为待识别图像，其中，所述目标文字是所述用户指向的文字；检测单元，对所述待识别图像中的目标文字进行检测，获得包围所述目标文...

【专利技术属性】
技术研发人员：ꢀ七四专利代理机构，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人