用于输出信息的方法和装置制造方法及图纸

技术编号:27227742 阅读:17 留言:0更新日期:2021-02-04 11:51
本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:响应于接收到用户发起的点读请求,获取对目标文字进行拍摄所获得的图像作为待识别图像,其中,目标文字是用户指向的文字;对待识别图像中的目标文字进行检测,获得包围目标文字的多边形框;确定多边形框所对应的多边形区域的面积;基于所确定的面积,确定目标文字的字号作为目标字号;基于目标字号,生成及输出针对目标文字的点读结果。该实施方式在生成点读结果的过程中考虑到了文字的字号,引入更多的与点读结果相关的数据,进而可以输出更为准确、有效的点读结果,有助于提高用户体验。有助于提高用户体验。有助于提高用户体验。

【技术实现步骤摘要】
用于输出信息的方法和装置


[0001]本公开的实施例涉及计算机
,尤其涉及用于输出信息的方法和装置。

技术介绍

[0002]书本、电子文档等包括文字的物体通常包括封面和正文。相对而言,封面上的文字通常是大字号的文字,正文中的文字通常是小字号的文字。
[0003]现有技术中,用于实现文字点读的模型通常是针对正文中的小字号文字训练得到的模型。

技术实现思路

[0004]本公开的实施例提出了用于输出信息的方法和装置。
[0005]第一方面,本公开的实施例提供了一种用于输出信息的方法,该方法包括:响应于接收到用户发起的点读请求,获取对目标文字进行拍摄所获得的图像作为待识别图像,其中,目标文字是用户指向的文字;对待识别图像中的目标文字进行检测,获得包围目标文字的多边形框;确定多边形框所对应的多边形区域的面积;基于所确定的面积,确定目标文字的字号作为目标字号;基于目标字号,生成及输出针对目标文字的点读结果。
[0006]在一些实施例中,基于目标字号,生成及输出针对目标文字的点读结果包括:响应于目标字号小于或等于预设字号,将多边形区域输入预先训练的第一文字识别模型,获得第一识别文字;获取第一识别文字所对应的音频;将第一识别文字所对应的音频作为点读结果输出。
[0007]在一些实施例中,基于目标字号,生成及输出针对目标文字的点读结果包括:响应于目标字号大于预设字号,对多边形区域进行缩放,获得缩放后多边形区域;将缩放后多边形区域输入第一文字识别模型,获得第二识别文字;获取第二识别文字所对应的音频;将第二识别文字所对应的音频作为点读结果输出。
[0008]在一些实施例中,基于目标字号,生成及输出针对目标文字的点读结果包括:响应于目标字号大于预设字号,将多边形区域输入预先训练的第二文字识别模型,获得第三识别文字;获取第三识别文字所对应的音频;将第三识别文字所对应的音频作为点读结果输出。
[0009]在一些实施例中,基于目标字号,生成及输出针对目标文字的点读结果包括:响应于目标字号大于预设字号,将预先设置的提示信息作为点读结果输出,其中,提示信息用于提示用户指向新文字,新文字所对应的字号小于目标字号。
[0010]第二方面,本公开的实施例提供了一种用于输出信息的装置,该装置包括:获取单元,被配置成响应于接收到用户发起的点读请求,获取对目标文字进行拍摄所获得的图像作为待识别图像,其中,目标文字是用户指向的文字;检测单元,对待识别图像中的目标文字进行检测,获得包围目标文字的多边形框;第一确定单元,被配置成确定多边形框所对应的多边形区域的面积;第二确定单元,被配置成基于所确定的面积,确定目标文字的字号作
为目标字号;输出单元,被配置成基于目标字号,生成及输出针对目标文字的点读结果。
[0011]在一些实施例中,输出单元包括:第一输入模块,被配置成响应于目标字号小于或等于预设字号,将多边形区域输入预先训练的第一文字识别模型,获得第一识别文字;第一获取模块,被配置成获取第一识别文字所对应的音频;第一输出模块,被配置成将第一识别文字所对应的音频作为点读结果输出。
[0012]在一些实施例中,输出单元包括:缩放模块,被配置成响应于目标字号大于预设字号,对多边形区域进行缩放,获得缩放后多边形区域;第二输入模块,被配置成将缩放后多边形区域输入预先训练的第一文字识别模型,获得第二识别文字;第二获取模块,被配置成获取第二识别文字所对应的音频;第二输出模块,被配置成将第二识别文字所对应的音频作为点读结果输出。
[0013]在一些实施例中,输出单元包括:第三输入模块,被配置成响应于目标字号大于预设字号,将多边形区域输入预先训练的第二文字识别模型,获得第三识别文字;第三获取模块,被配置成获取第三识别文字所对应的音频;第三输出模块,被配置成将第三识别文字所对应的音频作为点读结果输出。
[0014]在一些实施例中,输出单元包括:第四输出模块,被配置成响应于目标字号大于预设字号,将预先设置的提示信息作为点读结果输出,其中,提示信息用于提示用户指向新文字,新文字所对应的字号小于目标字号。
[0015]第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述用于输出信息的方法中任一实施例的方法。
[0016]第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现上述用于输出信息的方法中任一实施例的方法。
[0017]本公开的实施例提供的用于输出信息的方法和装置,通过响应于接收到用户发起的点读请求,获取对目标文字进行拍摄所获得的图像作为待识别图像,其中,目标文字是用户指向的文字,而后对待识别图像中的目标文字进行检测,获得包围目标文字的多边形框,接着确定多边形框所对应的多边形区域的面积,然后基于所确定的面积,确定目标文字的字号作为目标字号,最后基于目标字号,生成及输出针对目标文字的点读结果,由于在点读过程中,针对不同字号的文字可以具有不同的点读效果,因此,本公开在生成点读结果的过程中考虑到了文字的字号,引入更多的与点读结果相关的数据,进而可以输出更为准确、有效的点读结果,有助于提高用户体验。
附图说明
[0018]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
[0019]图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
[0020]图2是根据本公开的用于输出信息的方法的一个实施例的流程图;
[0021]图3是根据本公开的实施例的用于输出信息的方法的一个应用场景的示意图;
[0022]图4是根据本公开的用于输出信息的方法的又一个实施例的流程图;
[0023]图5是根据本公开的用于输出信息的装置的一个实施例的结构示意图;
[0024]图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0025]下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。
[0026]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0027]图1示出了可以应用本公开的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
[0028]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0029]用户可以使用终本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于输出信息的方法,包括:响应于接收到用户发起的点读请求,获取对目标文字进行拍摄所获得的图像作为待识别图像,其中,所述目标文字是所述用户指向的文字;对所述待识别图像中的目标文字进行检测,获得包围所述目标文字的多边形框;确定所述多边形框所对应的多边形区域的面积;基于所确定的面积,确定所述目标文字的字号作为目标字号;基于所述目标字号,生成及输出针对所述目标文字的点读结果。2.根据权利要求1所述的方法,其中,所述基于所述目标字号,生成及输出针对所述目标文字的点读结果包括:响应于所述目标字号小于或等于预设字号,将所述多边形区域输入预先训练的第一文字识别模型,获得第一识别文字;获取所述第一识别文字所对应的音频;将所述第一识别文字所对应的音频作为点读结果输出。3.根据权利要求2所述的方法,其中,所述基于所述目标字号,生成及输出针对所述目标文字的点读结果包括:响应于所述目标字号大于预设字号,对所述多边形区域进行缩放,获得缩放后多边形区域;将所述缩放后多边形区域输入所述第一文字识别模型,获得第二识别文字;获取所述第二识别文字所对应的音频;将所述第二识别文字所对应的音频作为点读结果输出。4.根据权利要求1所述的方法,其中,所述基于所述目标字号,生成及输出针对所述目标文字的点读结果包括:响应于所述目标字号大于预设字号,将所述多边形区域输入预先训练的第二文字识别模型,获得第三识别文字;获取所述第三识别文字所对应的音频;将所述第三识别文字所对应的音频作为点读结果输出。5.根据权利要求1-4之一所述的方法,其中,所述基于所述目标字号,生成及输出针对所述目标文字的点读结果包括:响应于所述目标字号大于预设字号,将预先设置的提示信息作为点读结果输出,其中,所述提示信息用于提示所述用户指向新文字,新文字所对应的字号小于或等于所述目标字号。6.一种用于输出信息的装置,包括:获取单元,被配置成响应于接收到用户发起的点读请求,获取对目标文字进行拍摄所获得的图像作为待识别图像,其中,所述目标文字是所述用户指向的文字;检测单元,对所述待识别图像中的目标文字进行检测,获得包围所述目标文...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1