用于生成信息的方法和装置制造方法及图纸

技术编号:18256453 阅读:31 留言:0更新日期:2018-06-20 08:15
本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取目标信息,以及确定目标信息所属的类别;将目标信息输入到预先训练的电话号码识别模型中,得到目标信息的识别结果,其中,识别结果用于指示目标信息中是否包含电话号码,电话号码识别模型用于表征信息与识别结果之间的对应关系;响应于确定出识别结果指示目标信息中包含电话号码,从目标信息中提取电话号码,生成包括提取出的电话号码和类别的记录。该实施方式提高了电话号码提取的准确率和覆盖率。

Methods and devices used to generate information

The application embodiment discloses a method and device for generating information. The method includes: obtaining the target information and determining the category of the target information; input the target information into the pre trained telephone number recognition model and get the recognition result of the target information, in which the identification results are used to indicate whether the phone number is included in the target information, and the telephone number is included. The recognition model is used to represent the correspondence between the information and the recognition results; in response to the identification results, the telephone number is included in the target information, the phone number is extracted from the target information, and the records of the extracted telephone numbers and categories are generated. The implementation improves the accuracy and coverage of telephone number extraction.

【技术实现步骤摘要】
用于生成信息的方法和装置
本申请实施例涉及计算机
,具体涉及信息处理
,尤其涉及用于生成信息的方法和装置。
技术介绍
目前,在一些用户原创内容(UGC,UserGeneratedContent)网站(例如,论坛类网站、社交类网站等)中,一些用户会将自己的某一需求(例如,房屋出租出售、跳槽等)和电话号码发表在帖子或者评论区域中,使得其他人(例如,销售人员、猎头等)看到后可以与这些具有需求的用户进一步沟通。因此,如何从这些用户发表内容中提取出用户的电话号码具有重要的意义。
技术实现思路
本申请实施例提出了用于生成信息的方法和装置。第一方面,本申请实施例提供了一种用于生成信息的方法,包括:获取目标信息,以及确定目标信息所属的类别;将目标信息输入到预先训练的电话号码识别模型中,得到目标信息的识别结果,其中,识别结果用于指示目标信息中是否包含电话号码,电话号码识别模型用于表征信息与识别结果之间的对应关系;响应于确定出识别结果指示目标信息中包含电话号码,从目标信息中提取电话号码,生成包括提取出的电话号码和类别的记录。在一些实施例中,目标信息来源于目标网站;以及该方法还包括:获取在目标网站中发表目标信息的用户的用户名。在一些实施例中,在从目标信息中提取电话号码之后,该方法还包括:确定提取出的电话号码的置信度。在一些实施例中,确定提取出的电话号码的置信度,包括:统计用户在目标网站发表的包含电话号码的信息的数目作为第一数目;统计用户在目标网站发表的包含提取出的电话号码的信息的数目作为第二数目;统计在目标网站发表包含电话号码的信息最多的用户所发表的包含电话号码的信息的数目作为第三数目;求取预设数值与第一数目之和的对数作为第一对数,求取预设数值与第三数目之和的对数作为第二对数;将第一对数与第二对数的比值乘以第一数目与第二数目的比值的乘积确定为提取出的电话号码的置信度。在一些实施例中,生成包括提取出的电话号码和类别的记录,包括:生成包括用户名、提取出的电话号码、目标信息、类别和置信度的记录。在一些实施例中,该方法还包括:响应于接收到包括类别的搜索请求,获取所搜索的类别对应的至少一条记录;从至少一条记录中按照置信度由大到小的顺序选取预设数目个记录,输出选取出的记录。在一些实施例中,电话号码识别模型是通过如下步骤训练得到的:获取样本数据集合,其中,样本数目集合中的每个样本数据包括样本信息和识别结果,样本信息包括包含电话号码的样本信息和不包含电话号码的样本信息,识别结果包括表征样本信息包含电话号码的标识和表征样本信息不包含电话号码的标识;利用机器学习方法,将样本数目集合中的每个样本数据中的样本信息作为输入,将该样本数据中的识别结果作为输出,对预设的初始模型进行训练得到电话号码识别模型。在一些实施例中,包含电话号码的样本信息是通过如下步骤得到的:在目标网站中获取至少一个用户发表的用户发表信息;利用预设的正则表达式对用户发表信息进行过滤,得到包含电话号码的样本信息。第二方面,本申请实施例提供了一种用于生成信息的装置,包括:第一获取单元,配置用于获取目标信息,以及确定目标信息所属的类别;输入单元,配置用于将目标信息输入到预先训练的电话号码识别模型中,得到目标信息的识别结果,其中,识别结果用于指示目标信息中是否包含电话号码,电话号码识别模型用于表征信息与识别结果之间的对应关系;第一生成单元,配置用于响应于确定出识别结果指示目标信息中包含电话号码,从目标信息中提取电话号码,生成包括提取出的电话号码和类别的记录。在一些实施例中,目标信息来源于目标网站;以及该装置还包括:第二获取单元,配置用于获取在目标网站中发表目标信息的用户的用户名。在一些实施例中,该装置还包括:确定单元,配置用于确定提取出的电话号码的置信度。在一些实施例中,确定单元包括:第一统计模块,配置用于统计用户在目标网站发表的包含电话号码的信息的数目作为第一数目;第二统计模块,配置用于统计用户在目标网站发表的包含提取出的电话号码的信息的数目作为第二数目;第三统计模块,配置用于统计在目标网站发表包含电话号码的信息最多的用户所发表的包含电话号码的信息的数目作为第三数目;求取模块,配置用于求取预设数值与第一数目之和的对数作为第一对数,求取预设数值与第三数目之和的对数作为第二对数;确定模块,配置用于将第一对数与第二对数的比值乘以第一数目与第二数目的比值的乘积确定为提取出的电话号码的置信度。在一些实施例中,生成单元进一步配置用于:生成包括用户名、提取出的电话号码、目标信息、类别和置信度的记录。在一些实施例中,该装置还包括:第三获取单元,配置用于响应于接收到包括类别的搜索请求,获取所搜索的类别对应的至少一条记录;输出单元,配置用于从至少一条记录中按照置信度由大到小的顺序选取预设数目个记录,输出选取出的记录。在一些实施例中,该装置还包括用于训练电话号码识别模型的训练单元,训练单元包括:获取模块,配置用于获取样本数据集合,其中,样本数目集合中的每个样本数据包括样本信息和识别结果,样本信息包括包含电话号码的样本信息和不包含电话号码的样本信息,识别结果包括表征样本信息包含电话号码的标识和表征样本信息不包含电话号码的标识;训练模块,配置用于利用机器学习方法,将样本数目集合中的每个样本数据中的样本信息作为输入,将该样本数据中的识别结果作为输出,对预设的初始模型进行训练得到电话号码识别模型。在一些实施例中,该装置还包括用于生成包含电话号码的样本信息的第二生成单元,第二生成单元包括:获取模块,配置用于在目标网站中获取至少一个用户发表的用户发表信息;过滤模块,配置用于利用预设的正则表达式对用户发表信息进行过滤,得到包含电话号码的样本信息。第三方面,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得上述一个或多个处理器实现本申请提供的用于生成信息的方法。第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请提供的用于生成信息的方法。本申请提供的用于生成信息的方法和装置,通过获取目标信息,以及确定获取到的目标信息所属的类别,而后将上述目标信息输入到预先训练的电话号码识别模型中,得到上述目标信息的识别结果,响应于确定出上述识别结果指示上述目标信息中包含电话号码,从上述目标信息中提取电话号码,以及生成包括提取出的电话号码和上述类别的记录,从而提高了电话号码提取的准确率和覆盖率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用于生成信息的方法的一个实施例的流程图;图3是根据本申请的用于生成信息的方法的一个应用场景的示意图;图4是根据本申请的用于生成信息的方法的又一个实施例的流程图;图5是根据本申请的用于生成信息的装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该发本文档来自技高网...
用于生成信息的方法和装置

【技术保护点】
1.一种用于生成信息的方法,包括:获取目标信息,以及确定所述目标信息所属的类别;将所述目标信息输入到预先训练的电话号码识别模型中,得到所述目标信息的识别结果,其中,所述识别结果用于指示所述目标信息中是否包含电话号码,所述电话号码识别模型用于表征信息与识别结果之间的对应关系;响应于确定出所述识别结果指示所述目标信息中包含电话号码,从所述目标信息中提取电话号码,生成包括提取出的电话号码和所述类别的记录。

【技术特征摘要】
1.一种用于生成信息的方法,包括:获取目标信息,以及确定所述目标信息所属的类别;将所述目标信息输入到预先训练的电话号码识别模型中,得到所述目标信息的识别结果,其中,所述识别结果用于指示所述目标信息中是否包含电话号码,所述电话号码识别模型用于表征信息与识别结果之间的对应关系;响应于确定出所述识别结果指示所述目标信息中包含电话号码,从所述目标信息中提取电话号码,生成包括提取出的电话号码和所述类别的记录。2.根据权利要求1所述的方法,其中,所述目标信息来源于目标网站;以及所述方法还包括:获取在所述目标网站中发表所述目标信息的用户的用户名。3.根据权利要求2所述的方法,其中,在所述从所述目标信息中提取电话号码之后,所述方法还包括:确定提取出的电话号码的置信度。4.根据权利要求3所述的方法,其中,所述确定提取出的电话号码的置信度,包括:统计所述用户在所述目标网站发表的包含电话号码的信息的数目作为第一数目;统计所述用户在所述目标网站发表的包含提取出的电话号码的信息的数目作为第二数目;统计在所述目标网站发表包含电话号码的信息最多的用户所发表的包含电话号码的信息的数目作为第三数目;求取预设数值与所述第一数目之和的对数作为第一对数,求取所述预设数值与所述第三数目之和的对数作为第二对数;将所述第一对数与所述第二对数的比值乘以所述第一数目与所述第二数目的比值的乘积确定为所述提取出的电话号码的置信度。5.根据权利要求3或4所述的方法,其中,所述生成包括提取出的电话号码和所述类别的记录,包括:生成包括所述用户名、所述提取出的电话号码、所述目标信息、所述类别和所述置信度的记录。6.根据权利要求5所述的方法,其中,所述方法还包括:响应于接收到包括类别的搜索请求,获取所搜索的类别对应的至少一条记录;从所述至少一条记录中按照置信度由大到小的顺序选取预设数目个记录,输出选取出的记录。7.根据权利要求1所述的方法,其中,所述电话号码识别模型是通过如下步骤训练得到的:获取样本数据集合,其中,所述样本数目集合中的每个样本数据包括样本信息和识别结果,样本信息包括包含电话号码的样本信息和不包含电话号码的样本信息,识别结果包括表征样本信息包含电话号码的标识和表征样本信息不包含电话号码的标识;利用机器学习方法,将所述样本数目集合中的每个样本数据中的样本信息作为输入,将该样本数据中的识别结果作为输出,对预设的初始模型进行训练得到电话号码识别模型。8.根据权利要求7所述的方法,其中,所述包含电话号码的样本信息是通过如下步骤得到的:在目标网站中获取至少一个用户发表的用户发表信息;利用预设的正则表达式对所述用户发表信息进行过滤,得到包含电话号码的样本信息。9.一种用于生成信息的装置,包括:第一获取单元,配置用于获取目标信息,以及确定所述目标信息所属的类别;输入单元,配置用于将所述目标信息输入到预先训练的电话号码识别模型中,得到所述目标信息的识别结果,其中,所述识别结果用于指示所述目标信息中是否包含电话号码,所述电话号码识别模型用于表征信息与识别结果之间的对应...

【专利技术属性】
技术研发人员:竺晨曦
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1