【技术实现步骤摘要】
目标信息识别方法、装置、设备、可读存储介质及产品
[0001]本公开涉及人工智能中的NLP,尤其涉及一种目标信息识别方法、装 置、设备、可读存储介质及产品。
技术介绍
[0002]隐私政策是APP必备的重要文件,隐私政策往往很冗长繁琐,按照 法律法规的要求应该包含多方面的内容,如:如何收集和使用个人信息, 个人信息安全保障,个人信息出境情况说明等。隐私政策最核心的内容是 如何收集和使用个人信息(包括第三方SDK收集和使用个人信息),但 是隐私政策并没有标准格式,且较为冗长,因此,个人信息的识别较为困 难。
[0003]现有的隐私政策文件个人信息识别方法一般都是基于规定的标准个 人信息对模型进行训练,通过训练后的模型进行个人信息的识别操作。
[0004]但是,由于APP开发者书写隐私政策往往比较随意,尤其是个人信 息用词存在多种表达方式,采用上述方法识别的个人信息的准确性不高。
技术实现思路
[0005]本公开提供了一种用于实现对隐私政策文件中个人信息精准识别的 目标信息识别方法、装置、设备、可读存储介质及产品。
[0006]根据本公开的第一方面,提供了一种目标信息识别方法,包括:
[0007]获取识别请求,其中,所述识别请求中包括待识别隐私政策文件;
[0008]根据所述识别请求,将所述待识别隐私政策文件与预设的目标信息词 表进行比对操作,确定待识别隐私政策文件与目标信息词表的交集词汇集 合,其中,所述目标信息词表中包括符合预设规定的标准目标信息词汇, 以及不符 ...
【技术保护点】
【技术特征摘要】
1.一种目标信息识别方法,包括:获取识别请求,其中,所述识别请求中包括待识别隐私政策文件;根据所述识别请求,将所述待识别隐私政策文件与预设的目标信息词表进行比对操作,确定待识别隐私政策文件与目标信息词表的交集词汇集合,其中,所述目标信息词表中包括符合预设规定的标准目标信息词汇,以及不符合预设规定的非标准目标信息词汇;将交集词汇集合中的词汇确定为待识别隐私政策文件对应的目标信息。2.根据权利要求1所述的方法,所述根据所述识别请求,将所述待识别隐私政策文件与预设的目标信息词表进行比对操作之前,还包括:获取待处理隐私政策文件集合,其中,所述待处理隐私政策文件集合中包括多个待处理隐私政策文件;对各所述待处理隐私政策文件进行数据处理,获得与各待处理隐私政策文件对应的多个名词性短语;根据各名词性短语在多个待处理隐私政策文件中使用频率将所述名词性短语按照所述使用频率由大到小的顺序进行排序,获得排序后的名词性短语;根据所述排序后的名词性短语生成所述目标信息词表。3.根据权利要求2所述的方法,其中,所述对各所述待处理隐私政策文件进行数据处理,获得与各待处理隐私政策文件对应的多个名词性短语,包括:针对各待处理隐私政策文件,根据所述待处理隐私政策文件中的标点符号对待处理隐私政策文件进行分句操作,获得与所述待处理隐私政策文件对应的多个待处理语句;针对各待处理语句,将所述待处理语句输入至预设的语言分析工具,获得所述待处理语句对应的多个分词、任意两个分词之间的依存关系以及各分词对应的词性信息,其中,所述语言分析工具为自然语言处理工具;根据所述待处理语句对应的多个分词、任意两个分词之间的依存关系以及各分词对应的词性信息,确定所述待处理语句对应的至少一个名词性短语。4.根据权利要求3所述的方法,其中,所述根据所述待处理语句对应的多个分词、任意两个分词之间的依存关系以及各分词对应的词性信息,确定所述待处理语句对应的至少一个名词性短语,包括:根据所述待处理语句对应的多个分词及各分词的词性信息,确定所述待处理语句对应的名词分词;针对各名词分词,根据所述任意两个分词之间的依存关系确定所述名词分词对应的修饰性分词;将所述名词分词以及所述修饰性分词确定为所述名词性短语。5.根据权利要求2所述的方法,其中,所述根据所述排序后的名词性短语生成所述目标信息词表,包括:按照所述排序后的名词性短语的顺序,依次将所述名词性短语与标准目标信息词表中的各词汇进行比对操作,获得比对结果;根据所述比对结果对所述排序后的名词性短语进行标注操作;剔除所述排序后的名词性短语中未被标注的名词性短语,获得所述目标信息词表。6.根据权利要求5所述的方法,其中,所述根据所述比对结果对所述排序后的名词性短
语进行标注操作,包括:若所述比对结果为所述标准目标信息词表中包括所述名词性短语,则将所述名词性短语标注为标准目标信息词汇;若所述比对结果为所述标准目标信息词表中不包括所述名词性短语,则计算所述名词性短语与所述标准目标信息词表中词汇的相似度;若所述名词性短语与所述标准目标信息词表中相似度最高的标准目标信息词汇的相似度超过预设的相似度阈值,则自动将所述名词性短语标注为非标准目标信息词汇。7.根据权利要求6所述的方法,所述将所述名词性短语标注为非标准目标信息词汇之后,还包括:建立所述非标准目标信息词汇与所述相似度最高的标准目标信息词汇之间的映射关系。8.根据权利要求7所述的方法,其中,所述若所述名词性短语与所述标准目标信息词表中相似度最高的词汇的相似度超过预设的相似度阈值,则自动将所述名词性短语标注为非标准目标信息词汇之后,还包括:若所述比对结果为所述标准目标信息词表中不包括所述名词性短语,所述名词性短语与所述标准目标信息词表中相似度最高的词汇的相似度不超过预设的相似度阈值,且所述名词性短语在排序中的位置超过预设的位置阈值,则将所述名词性短语发送至技术人员的终端设备,使得所述技术人员对所述名词性短语进行手动标注操作;接收技术人员的终端设备发送的手动标注的非标准目标信息词汇;将自动标注的非标准目标信息词汇以及手动标注的非标准目标信息词汇确定为非标准目标信息词汇。9.根据权利要求7所述的方法,其中,所述根据所述识别请求,将所述待识别隐私政策文件与预设的目标信息词表进行比对操作,确定待识别隐私政策文件与目标信息词表的交集词汇集合之后,还包括:若检测到所述待识别隐私政策文件中存在非标准目标信息词汇,则根据所述非标准目标信息词汇与标准目标信息词汇之间的映射关系,将所述待识别隐私政策文件中的非标准目标信息词汇替换为所述标准目标信息词汇。10.根据权利要求2
‑
8任一项所述的方法,其中,所述获取待处理隐私政策文件集合,包括:通过网络爬虫从互联网上获取待处理隐私政策文件集合。11.一种目标信息识别装置,包括:获取模块,用于获取识别请求,其中,所述识别请求中包括待识别隐私政策文件;处理模块,用于根据所述识别请求...
【专利技术属性】
技术研发人员:侯柳平,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。