本发明专利技术公开了一种基于OCR的可接受图片输入的方法,针对传统技术无法对输入信息为图片的情况进行及时处理的问题,本发明专利技术通过引入OCR识别的技术,使得输入端可以接受图片作为输入,并自动转换为可被机器端接收的文本模式,从而方便地实现了对输入信息为图片的信息处理,避免了人工转换的繁杂和易出错的问题。避免了人工转换的繁杂和易出错的问题。避免了人工转换的繁杂和易出错的问题。
【技术实现步骤摘要】
一种基于OCR的可接受图片输入的方法及系统
[0001]本专利技术涉及人工智能服务
,特别涉及一种基于OCR的可接受图片输入的方法及系统。
技术介绍
[0002]传统的人工智能服务问答机器人有一个固有缺陷,就是只能接受文本和语音输入(语音输入也是通过语音自动识别技术(ASR)转换为文本之后再处理),导致其只能服务于比较简单的领域,这些领域的咨询或问题都必须可以通过文本或语音来描述。对于类似信息系统或应用等的故障处理的场景,常常会通过系统截图的方式来描述故障,系统截图有两个好处,一是方便简洁,二是可以最大程度保存原始故障信息。但是目前的传统人工智能服务问答机器人是无法接受图片输入的。因此有必要提出一种改造传统人工智能服务问答机器人的方法。
技术实现思路
[0003]有鉴于此,本专利技术的目的是提供一种基于OCR的可接受图片输入的方法。通过加入OCR文字识别模块,使得现有的智能问答交互机器人等接受端有了接受图片输入的能力。
[0004]本专利技术的目的是通过以下技术方案实现的:
[0005]该种基于OCR的可接受图片输入的方法,包括
[0006]设定一特定的信息接收端;
[0007]该信息接收端对输入的信息进行类型判定;
[0008]根据不同的信息类型采取不同的后续处理方式,如果是图片类型,则进行OCR文字识别,识别成文字后,进行后续处理。
[0009]特别地,输入的信息类型如果是语音,则进行语音识别后转为文本进行后续处理。
[0010]特别地,如果输入的信息类型不属于文字、语音及图片中的任何一种,则属于不支持输入的信息类型并通过信息接收端反馈。
[0011]本专利技术的目的之二是通过以下技术方案实现的:
[0012]该种基于OCR的可接受图片输入的系统,包括
[0013]输入端,用于接收外部输入信息;
[0014]输入处理单元,用于对输入的信息的类型进行判断并选择对应的处理方式,如果是属于图片类型则调用内部的OCR识别引擎进行识别后再进行对应处理;
[0015]后端处理单元,接收输入处理单元处理后的信息并进行相应的反馈。
[0016]特别地,还包括与后端处理单元电联接的知识库/知识图谱模块,用于提供需要的各类数据供调用。
[0017]特别地,所述输入处理单元还包括语音识别引擎,用于对信息类型为语音的输入信息进行识别后再进行对应处理。
[0018]特别地,所述输入端采用前端机器人接入模块的交互模式。
[0019]特别地,语音识别引擎对用户输入的语音信息通过算法进行分析识别,最后将识别结果以约定的文本格式输出,结束本次识别。
[0020]本专利技术的有益效果是:
[0021]针对传统技术无法对输入信息为图片的情况进行及时处理的问题,本专利技术通过引入OCR识别的技术,使得输入端可以接受图片作为输入,并自动转换为可被机器端接收的文本模式,从而方便地实现了对输入信息为图片的信息处理,避免了人工转换的繁杂和易出错的问题。
[0022]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。
附图说明
[0023]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步的详细描述,其中:
[0024]图1为本专利技术的方法流程示意图;
[0025]图2为本专利技术的系统架构示意图。
具体实施方式
[0026]以下将参照附图,对本专利技术的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本专利技术,而不是为了限制本专利技术的保护范围。
[0027]如图1所示,本专利技术提供了一种基于OCR的可接受图片输入的方法,该方法通过设定一特定的信息接收端,用于接收外部通过各种为大众所熟知的方式输入的各类信息,然后该信息接收端对输入的信息进行类型判定;根据不同的信息类型采取不同的后续处理方式,如果是文字信息,采用现有的常规方式处理即可,如果输入的信息类型如果是语音,则进行语音识别后转为文本进行后续处理;如果是图片类型,则进行OCR文字识别,识别成文字后,进行后续处理。
[0028]如果输入的信息类型不属于文字、语音及图片中的任何一种,则属于不支持输入的信息类型并通过信息接收端反馈。
[0029]基于上述设计思想,本专利技术还提供一种基于OCR的可接受图片输入的系统,系统包括
[0030](1)输入端:用于接收外部输入信息;
[0031](2)输入处理单元:用于对输入的信息的类型进行判断并选择对应的处理方式,如果是属于图片类型则调用内部的OCR识别引擎进行识别后再进行对应处理;输入处理单元还包括语音识别引擎,用于对信息类型为语音的输入信息进行识别后再进行对应处理;如果是文本信息则按照常规文本信息的处理方式直接进行处理即可。
[0032](3)后端处理单元:接收输入处理单元处理后的信息并进行相应的反馈。
[0033](4)知识库/知识图谱模块,与后端处理单元电联接,用于提供需要的各类数据供调用。
[0034]本实施例中,如图2所示,输入端采用前端机器人接入模块的交互模式。即与外部相沟通界面为机器人接受信息并通过后台数据库提供信息反馈的方式,当然也可以采用其他类似的智能交互沟通界面模式。
[0035]语音识别引擎的语音识别模块主要对用户输入的语音信息通过模式识别等各种算法进行分析识别,最后将识别结果以约定的文本格式输出,结束本次识别。
[0036]对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简略,相关之处参见方法部分说明即可。
[0037]专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本专利技术的范围。
[0038]结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD
‑
ROM、或
内所公知的任意其它形式的存储介质中。
[0039]以上对本专利技术所提供的一种方法及系统进行了详细介绍。本文中应用了具体个例对本专利技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本专利技术的方法及其核心思想,最后说明的是,以上实施例仅用以说明本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于OCR的可接受图片输入的方法,其特征在于:所述方法包括设定一特定的信息接收端;该信息接收端对输入的信息进行类型判定;根据不同的信息类型采取不同的后续处理方式,如果是图片类型,则进行OCR文字识别,识别成文字后,进行后续处理。2.根据权利要求1所述的一种基于OCR的可接受图片输入的方法,其特征在于:输入的信息类型如果是语音,则进行语音识别后转为文本进行后续处理。3.根据权利要求1所述的一种基于OCR的可接受图片输入的方法,其特征在于:如果输入的信息类型不属于文字、语音及图片中的任何一种,则属于不支持输入的信息类型并通过信息接收端反馈。4.一种基于OCR的可接受图片输入的系统,其特征在于:所述系统包括输入端,用于接收外部输入信息;输入处理单元,用于对输入的信息的类型进行判断并选择对应的处理方式,如果是属于图片类型则调用...
【专利技术属性】
技术研发人员:杨箴,孔庆波,朱州,吴漾,张克贤,白雪,郭仁超,王鹏宇,
申请(专利权)人:贵州电网有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。