The application embodiment discloses a method and device for generating information. The method includes: obtaining the target information and determining the category of the target information; input the target information into the pre trained telephone number recognition model and get the recognition result of the target information, in which the identification results are used to indicate whether the phone number is included in the target information, and the telephone number is included. The recognition model is used to represent the correspondence between the information and the recognition results; in response to the identification results, the telephone number is included in the target information, the phone number is extracted from the target information, and the records of the extracted telephone numbers and categories are generated. The implementation improves the accuracy and coverage of telephone number extraction.
【技术实现步骤摘要】
用于生成信息的方法和装置
本申请实施例涉及计算机
,具体涉及信息处理
,尤其涉及用于生成信息的方法和装置。
技术介绍
目前,在一些用户原创内容(UGC,UserGeneratedContent)网站(例如,论坛类网站、社交类网站等)中,一些用户会将自己的某一需求(例如,房屋出租出售、跳槽等)和电话号码发表在帖子或者评论区域中,使得其他人(例如,销售人员、猎头等)看到后可以与这些具有需求的用户进一步沟通。因此,如何从这些用户发表内容中提取出用户的电话号码具有重要的意义。
技术实现思路
本申请实施例提出了用于生成信息的方法和装置。第一方面,本申请实施例提供了一种用于生成信息的方法,包括:获取目标信息,以及确定目标信息所属的类别;将目标信息输入到预先训练的电话号码识别模型中,得到目标信息的识别结果,其中,识别结果用于指示目标信息中是否包含电话号码,电话号码识别模型用于表征信息与识别结果之间的对应关系;响应于确定出识别结果指示目标信息中包含电话号码,从目标信息中提取电话号码,生成包括提取出的电话号码和类别的记录。在一些实施例中,目标信息来源于目标网站;以及该方法还包括:获取在目标网站中发表目标信息的用户的用户名。在一些实施例中,在从目标信息中提取电话号码之后,该方法还包括:确定提取出的电话号码的置信度。在一些实施例中,确定提取出的电话号码的置信度,包括:统计用户在目标网站发表的包含电话号码的信息的数目作为第一数目;统计用户在目标网站发表的包含提取出的电话号码的信息的数目作为第二数目;统计在目标网站发表包含电话号码的信息最多的用户所发表的包含电话号码的信息的 ...
【技术保护点】
1.一种用于生成信息的方法,包括:获取目标信息,以及确定所述目标信息所属的类别;将所述目标信息输入到预先训练的电话号码识别模型中,得到所述目标信息的识别结果,其中,所述识别结果用于指示所述目标信息中是否包含电话号码,所述电话号码识别模型用于表征信息与识别结果之间的对应关系;响应于确定出所述识别结果指示所述目标信息中包含电话号码,从所述目标信息中提取电话号码,生成包括提取出的电话号码和所述类别的记录。
【技术特征摘要】
1.一种用于生成信息的方法,包括:获取目标信息,以及确定所述目标信息所属的类别;将所述目标信息输入到预先训练的电话号码识别模型中,得到所述目标信息的识别结果,其中,所述识别结果用于指示所述目标信息中是否包含电话号码,所述电话号码识别模型用于表征信息与识别结果之间的对应关系;响应于确定出所述识别结果指示所述目标信息中包含电话号码,从所述目标信息中提取电话号码,生成包括提取出的电话号码和所述类别的记录。2.根据权利要求1所述的方法,其中,所述目标信息来源于目标网站;以及所述方法还包括:获取在所述目标网站中发表所述目标信息的用户的用户名。3.根据权利要求2所述的方法,其中,在所述从所述目标信息中提取电话号码之后,所述方法还包括:确定提取出的电话号码的置信度。4.根据权利要求3所述的方法,其中,所述确定提取出的电话号码的置信度,包括:统计所述用户在所述目标网站发表的包含电话号码的信息的数目作为第一数目;统计所述用户在所述目标网站发表的包含提取出的电话号码的信息的数目作为第二数目;统计在所述目标网站发表包含电话号码的信息最多的用户所发表的包含电话号码的信息的数目作为第三数目;求取预设数值与所述第一数目之和的对数作为第一对数,求取所述预设数值与所述第三数目之和的对数作为第二对数;将所述第一对数与所述第二对数的比值乘以所述第一数目与所述第二数目的比值的乘积确定为所述提取出的电话号码的置信度。5.根据权利要求3或4所述的方法,其中,所述生成包括提取出的电话号码和所述类别的记录,包括:生成包括所述用户名、所述提取出的电话号码、所述目标信息、所述类别和所述置信度的记录。6.根据权利要求5所述的方法,其中,所述方法还包括:响应于接收到包括类别的搜索请求,获取所搜索的类别对应的至少一条记录;从所述至少一条记录中按照置信度由大到小的顺序选取预设数目个记录,输出选取出的记录。7.根据权利要求1所述的方法,其中,所述电话号码识别模型是通过如下步骤训练得到的:获取样本数据集合,其中,所述样本数目集合中的每个样本数据包括样本信息和识别结果,样本信息包括包含电话号码的样本信息和不包含电话号码的样本信息,识别结果包括表征样本信息包含电话号码的标识和表征样本信息不包含电话号码的标识;利用机器学习方法,将所述样本数目集合中的每个样本数据中的样本信息作为输入,将该样本数据中的识别结果作为输出,对预设的初始模型进行训练得到电话号码识别模型。8.根据权利要求7所述的方法,其中,所述包含电话号码的样本信息是通过如下步骤得到的:在目标网站中获取至少一个用户发表的用户发表信息;利用预设的正则表达式对所述用户发表信息进行过滤,得到包含电话号码的样本信息。9.一种用于生成信息的装置,包括:第一获取单元,配置用于获取目标信息,以及确定所述目标信息所属的类别;输入单元,配置用于将所述目标信息输入到预先训练的电话号码识别模型中,得到所述目标信息的识别结果,其中,所述识别结果用于指示所述目标信息中是否包含电话号码,所述电话号码识别模型用于表征信息与识别结果之间的对应...
【专利技术属性】
技术研发人员:竺晨曦,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。