本公开涉及人工智能技术领域,提供了一种文本类别的识别方法及装置。该方法包括:在每个类别的待标注文本中,根据标准问和每个相似问的第一相似度,确定每个类别的待标注文本对应的标准子类别;在每个类别的待标注文本中,根据任意一个相似问与其他的每个相似问的第二相似度,确定每个类别的待标注文本对应的非标准子类别;根据每个类别的待标注文本对应的标准子类别和多个非标准子类别,确定类别集合;在检测到第二待标注文本时,根据第二待标注文本更新类别集合;在检测到待识别文本时,使用最邻近算法,从类别集合中确定出待识别文本对应的类别。本对应的类别。本对应的类别。
【技术实现步骤摘要】
文本类别的识别方法及装置
[0001]本公开涉及人工智能
,尤其涉及一种文本类别的识别方法及装置。
技术介绍
[0002]在文本类别的识别中,现有技术往往是一次性标注完,根据标注完的文本进行文本识别。但是在一些文本识别场景下,需要进行多次文本类别的识别的操作,或者说需要多次更新标注的文本,才能保证文本识别的准确率不会低于预期。针对上述情况,现有技术还无法解决。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:因为无法实时更新标注的文本,导致识别文本类别的准确率低的问题。
技术实现思路
[0004]有鉴于此,本公开实施例提供了一种文本类别的识别方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,因为无法实时更新标注的文本,导致文本类别的识别的准确率低的问题。
[0005]本公开实施例的第一方面,提供了一种文本类别的识别方法,包括:获取第一待标注文本,其中,第一待标注文本包括多个类别的待标注文本,每个类别的待标注文本包括一个标准问和多个相似问;在每个类别的待标注文本中,根据标准问和每个相似问的第一相似度,确定每个类别的待标注文本对应的标准子类别;在每个类别的待标注文本中,根据任意一个相似问与其他的每个相似问的第二相似度,确定每个类别的待标注文本对应的非标准子类别;根据每个类别的待标注文本对应的标准子类别和多个非标准子类别,确定类别集合;在检测到第二待标注文本时,根据第二待标注文本更新类别集合;在检测到待识别文本时,使用最邻近算法,从所述类别集合中确定出所述待识别文本对应的类别。
[0006]本公开实施例的第二方面,提供了一种文本类别的识别装置,包括:获取模块,被配置为获取第一待标注文本,其中,第一待标注文本包括多个类别的待标注文本,每个类别的待标注文本包括一个标准问和多个相似问;第一确定模块,被配置为在每个类别的待标注文本中,根据标准问和每个相似问的第一相似度,确定每个类别的待标注文本对应的标准子类别;第二确定模块,被配置为在每个类别的待标注文本中,根据任意一个相似问与其他的每个相似问的第二相似度,确定每个类别的待标注文本对应的非标准子类别;第三确定模块,被配置为根据每个类别的待标注文本对应的标准子类别和多个非标准子类别,确定类别集合;更新模块,被配置为在检测到第二待标注文本时,根据第二待标注文本更新类别集合;识别模块,被配置为在检测到待识别文本时,使用最邻近算法,从所述类别集合中确定出所述待识别文本对应的类别。
[0007]本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0008]本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0009]本公开实施例与现有技术相比存在的有益效果是:因为在每个类别的待标注文本中,根据标准问和每个相似问的第一相似度,确定每个类别的待标注文本对应的标准子类别;在每个类别的待标注文本中,根据任意一个相似问与其他的每个相似问的第二相似度,确定每个类别的待标注文本对应的非标准子类别;根据每个类别的待标注文本对应的标准子类别和多个非标准子类别,确定类别集合;在检测到第二待标注文本时,根据第二待标注文本更新类别集合;在检测到待识别文本时,使用最邻近算法,从所述类别集合中确定出所述待识别文本对应的类别,因此采用上述技术手段,可以解决现有技术中,因为无法实时更新标注的文本,导致文本类别的识别的准确率低的问题,进而一种可以实时更新标注的文本,进而识别文本类别的方法。
附图说明
[0010]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1是本公开实施例的应用场景的场景示意图;
[0012]图2是本公开实施例提供的一种文本类别的识别方法的流程示意图;
[0013]图3是本公开实施例提供的一种文本类别的识别装置的结构示意图;
[0014]图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0015]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0016]下面将结合附图详细说明根据本公开实施例的一种文本类别的识别方法和装置。
[0017]图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。
[0018]终端设备1、2和3可以是硬件,也可以是软件。当终端设备1、2和3为硬件时,其可以是具有显示屏且支持与服务器4通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1、2和3为软件时,其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备1、2和3上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
[0019]服务器4可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器4可以是一台服务器,也可以是由若干台服务器组成的
服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
[0020]需要说明的是,服务器4可以是硬件,也可以是软件。当服务器4为硬件时,其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时,其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块,也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
[0021]网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near Field Communication,NFC)、红外(Infrared)等,本公开实施例对此不作限制。
[0022]用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接,以接收或发送信息等。需要说明的是,终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
...
【技术保护点】
【技术特征摘要】
1.一种文本类别的识别方法,其特征在于,包括:获取第一待标注文本,其中,所述第一待标注文本包括多个类别的待标注文本,每个类别的待标注文本包括一个标准问和多个相似问;在每个类别的所述待标注文本中,根据所述标准问和每个所述相似问的第一相似度,确定每个类别的所述待标注文本对应的标准子类别;在每个类别的所述待标注文本中,根据任意一个所述相似问与其他的每个所述相似问的第二相似度,确定每个类别的所述待标注文本对应的非标准子类别;根据每个类别的所述待标注文本对应的所述标准子类别和多个所述非标准子类别,确定类别集合;在检测到第二待标注文本时,根据所述第二待标注文本更新所述类别集合;在检测到待识别文本时,使用最邻近算法,从所述类别集合中确定出所述待识别文本对应的类别。2.根据权利要求1所述的方法,其特征在于,所述在每个类别的所述待标注文本中,根据所述标准问和每个所述相似问的第一相似度,确定每个类别的所述待标注文本对应的标准子类别,包括:在每个类别的所述待标注文本中:计算所述标准问和每个相似问的第一相似度;在所述第一相似度大于预设阈值时,将大于所述预设阈值的所述第一相似度对应的相似问添加到标准子类别中,并在所述待标注文本中将已经添加到所述标准子类别中的相似问删除。3.根据权利要求1所述的方法,其特征在于,所述在每个类别的所述待标注文本中,根据任意一个所述相似问与其他的每个所述相似问的第二相似度,确定每个类别的所述待标注文本对应的非标准子类别,包括:在每个类别的所述待标注文本中:计算任意一个相似问与其他的每个相似问的第二相似度;在所述第二相似度大于预设阈值时,将大于所述预设阈值的所述第二相似度对应的相似问添加到所述任意一个相似问对应的非标准子类别中,并在所述待标注文本中将已经添加到所述非标准子类别中的相似问删除。4.根据权利要求1所述的方法,其特征在于,所述根据每个类别的所述待标注文本对应的所述标准子类别和多个所述非标准子类别,确定类别集合,包括:在每个类别的所述待标注文本对应的所述标准子类别和多个所述非标准子类别中:计算每个所述非标准子类别中的所有所述相似问的算术平均值,得到每个所述非标准子类别对应的非标准子类别表示,计算所述标准子类别中的所述标准问和所有所述相似问的算术平均值,得到所述标准子类别对应的标准子类别表示,计算所有所述非标准子类别表示和所述标准子类别表示的算术平均值,得到每个类别的所述待标注文本对应的母类别表示;根据每个类别的所述待标注文本对应的多个所述非标准子类别表示、所述标准子类别表示和所述母类别表示,确定所述类别集合。5.根据权利要求1所述的方法,其特征在于,所述在检测到第二待标注文本时,根据所述第二待标注文本更新所述类别集合,包括:
将所述第二待标注文本输入文本编码器,得到所述第二待标注文本对应的第一文本表示;计算所述第一文本表示与所述类别集合中每个母类别表示的第三相似度,在所述第三相似度大于预设阈值时:计算所述第一文本表示与所述类别集合中每个母类别...
【专利技术属性】
技术研发人员:武文杰,
申请(专利权)人:深圳集智数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。