公开了基于图学习的特征工程的系统和方法。在一个实施例中,计算系统可以接收与机器学习模型相关联的查询信息。该系统可以访问定义在多个机器学习模型和机器学习模型的多个特征之间的关系的知识图。该系统可以基于知识图和查询信息来确定指示机器学习模型和知识图中的特征的一个或更多个特征之间的相关性的一个或更多个相关性度量。该系统可以基于一个或更多个相关性度量和一个或更多个特征来确定机器学习模型的一个或更多个推荐特征。确定机器学习模型的一个或更多个推荐特征。确定机器学习模型的一个或更多个推荐特征。
【技术实现步骤摘要】
基于图学习的特征工程的系统和方法
[0001]本公开大体上涉及机器学习模型,尤其涉及基于图学习的特征工程。
[0002]背景
[0003]可以包括社交网络网站或移动应用的社交网络系统可以使它的用户(例如个人或组织)能够与它交互以及通过它彼此交互。社交网络系统可以利用来自用户的输入来在社交网络系统中创建并存储与用户相关联的用户简档(user profile)。用户简档可以包括用户的人口统计信息、通信渠道信息以及关于个人兴趣的信息。社交网络系统还可以用来自用户的输入创建并存储用户与社交网络系统的其他用户的关系的记录,以及提供服务(例如,发帖墙(wall post)、照片分享、事件组织、消息传递、游戏或广告)以便于在用户之间或当中的社会互动。
[0004]社交网络系统可以通过一个或更多个网络向用户的移动设备或其他计算设备发送与它的服务相关的内容或消息。用户还可以在用户的移动设备或其他计算设备上安装软件应用,用于访问用户的用户简档和在社交网络系统内的其他数据。社交网络系统可以生成一组个性化的内容对象以显示给用户,例如关连(connect)到该用户的其他用户的汇集的动态(story)的动态消息(newsfeed)。
[0005]特定实施例的概述
[0006]本文描述的特定实施例涉及使用知识图和图学习来为机器学习(ML)模型推荐特征的系统和方法。该系统可以从另一计算系统或从用户输入接收多个ML模型,这些模型具有基于相关的域知识确定的关联特征。该系统可以生成知识图来表示这些ML模型和这些特征之间的关系,这些关系是基于相关的域知识或基于通过图学习推断的相关性来确定的。知识图可以包括多个节点和连接这些节点的多条边。每个节点可以代表一个ML模型或特征。每条边可以表示由该边连接的两个节点之间的关系,并且可以与用于表征所表示的关系的权重相关联。ML模型和特征可以与用于表征相应ML模型或特征的相应标签相关联。该系统可以使用图神经网络、基于机器学习的智能逻辑或基于规则的智能逻辑来基于知识图学习关于这些模型和特征的新知识(例如,关系、相似性、重要性、关联性、相关性)。例如,知识图中的特征可以与描述特征组、特征层、特征储存器(store)或相关问题域的特征属性相关联。可以基于相关联的特征属性来标记特征。该系统可以在由N个特征标签定义的N维空间中将特征聚类成多个特征类别。然后,系统可以基于N维空间中的聚类结果来确定这些特征之间的相似性和关联性。重复的特征可以合并在一起。作为另一个示例,系统可以基于这两个模型共享的特征来确定这两个模型之间的关联性。作为示例,系统可以基于特征与相同或相似问题域中的另一模型的关系来确定特征与特定问题域的模型的关联性。
[0007]系统可以基于通过图学习学习的新知识来动态更新知识图。系统可以添加新的边来表示关联节点之间新发现的关系。在针对特定ML模型的特征工程过程期间,系统可以接收与该特定ML模型相关联的查询信息,并且可以使用知识图来生成针对该特定ML模型的特征推荐。推荐的特征可以基于它们与该特定ML模型的关联性来确定,该关联性是通过图学习从知识图中推断出的。为了改进知识图中的ML模型,系统可以使用新学习的知识来为该
模型推荐新的特征,以提高该ML模型的有效性和精度。该系统还可以将反映相应模型推理(例如,曝光率、预测精度)在各自应用中的重要性或有效性的推理值度量作为输入。推理值度量可用于确定或更新知识图中边的权重。新的或现有的ML模型的推荐特征可以基于相应的推理值度量来评估。结果,该系统可以使用知识图和图学习为自动化特征工程提供有效的解决方案。
[0008]本文公开的实施例仅仅是示例,并且本公开的范围不限于它们。特定实施例可以包括上面公开的实施例的部件、元件、特征、功能、操作或步骤中的全部、一些或没有一个被包括。根据本专利技术的实施例在涉及方法、存储介质、系统和计算机程序产品的所附权利要求中被具体公开,其中,在一个权利要求类别(例如,方法)中提到的任何特征也可以在另一个权利要求类别(例如,系统)中被要求保护。在所附权利要求中的从属性或往回引用仅为了形式原因而被选择。然而,也可以要求保护由对任何前面的权利要求的有意往回引用(特别是多项引用)而产生的任何主题,使得权利要求及其特征的任何组合被公开并且可被要求保护,而不考虑在所附权利要求中选择的从属性。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合,而且还包括在权利要求中的特征的任何其他组合,其中,在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外,本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。
[0009]附图简述
[0010]图1示出了用于训练机器学习模型并将机器学习模型应用于应用的示例过程。
[0011]图2示出了特征知识图系统的示例框架。
[0012]图3A示出了示例知识图。
[0013]图3B示出了用于生成新节点并将新节点集成到知识图的示例过程。
[0014]图3C示出了基于与知识图中的特征相关联的对应标签来聚类这些特征的示例过程。
[0015]图3D示出了包括具有共享特征的两个模型的示例知识图。
[0016]图3E示出了用于为相关模型推荐特征的示例知识图。
[0017]图3F示出了包括嵌入子图的示例知识图。
[0018]图3G示出了用于推荐ML模型的特征的示例知识图。
[0019]图4示出了将迁移学习(transfer learning)用于特征工程的示例过程。
[0020]图5示出了使用知识图为机器学习模型推荐特征的示例方法。
[0021]图6示出了与社交网络系统相关联的示例网络环境。
[0022]图7示出了示例社交图。
[0023]图8示出了示例计算机系统。
[0024]示例实施例的描述
[0025]图1示出了用于训练机器学习模型并将机器学习模型应用于应用的示例过程100。机器学习(ML)模型可能需要大量的特征来进行有效的训练和应用于应用。这些特征可能在ML模型的训练效率和模型准确度中起到关键作用。特征工程102可以是使用域知识或数据驱动技术来提取和创建ML模型的特征的过程。例如,特征工程可以由人类专家基于与ML模
型相关联的域知识来执行,以确定ML模型的特征。作为另一个示例,系统可以使用数据驱动技术(例如,特征提取算法)从相关问题域收集的数据101中提取或生成ML模型的特征。可以在建模和训练过程103中使用所确定的特征来基于这些特征创建ML模型和/或训练ML模型。然后,可以在评估过程104中评估所确定的特征和相应的ML模型。此后,在推理阶段105,所确定的特征和相应的ML模型可以应用于应用。
[0026]特征工程是为特定问题域的机器学习(ML)模型生成特征的过程,这些特征将在ML模型的训练和推理过程中使用。现有的特征工程技术复杂且效率本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种方法,包括由计算系统:接收与机器学习模型相关联的查询信息;访问定义在多个机器学习模型和所述多个机器学习模型的多个特征之间的关系的知识图;基于所述知识图和所述查询信息,确定指示所述知识图中所述机器学习模型和所述多个特征的一个或更多个特征之间的相关性的一个或更多个相关性度量;和基于所述一个或更多个相关性度量和所述一个或更多个特征来确定关于所述机器学习模型的一个或更多个推荐特征。2.根据权利要求1所述的方法,其中,所述知识图包括多个节点和连接所述多个节点的多条边,并且其中,所述多个节点对应于所述多个机器学习模型和所述多个机器学习模型的所述多个特征。3.根据权利要求2所述的方法,其中,所述多个特征中的每一个基于相关的域知识或基于所述知识图确定的推断相关性而与一个或更多个机器学习模型相关联。4.根据权利要求2所述的方法,其中,所述多条边中的每条边连接所述知识图中的两个相关联的节点,并且其中,每条边与用于表征所述两个相关联的节点之间的关系的权重相关联。5.根据权利要求2所述的方法,还包括:为所述知识图生成对应于所述机器学习模型的第一新节点;为所述知识图生成对应于所述机器学习模型的一个或更多个初始特征的一个或更多个第二新节点;和为所述知识图生成将所述第一新节点连接到所述一个或更多个第二新节点的一条或更多条新边,其中,所述一条或更多条新边是基于与所述机器学习模型相关联的域知识来确定的。6.根据权利要求5所述的方法,还包括:确定所述第一新节点和所述一个或更多个第二新节点相对于所述知识图中的所述多个节点的一个或更多个新相关性;和基于所述一个或更多个新相关性,将所述第一新节点和所述一个或更多个第二新节点集成到所述知识图中。7.根据权利要求5所述的方法,其中,所述一个或更多个相关性度量是基于所述第一新节点和对应于所述一个或更多个特征的一个或更多个节点之间的一个或更多个图关系来确定的。8.根据权利要求5所述的方法,其中,所述一个或更多个相关性度量是基于所述第一新节点和对应于所述多个机器学习模型中的一个或更多个机器学习模型的一个或更多个节点之间的一个或更多个图关系来确定的,并且其中,所述一个或更多个特征与所述一个或更多个机器学习模型相关联。9.根据权利要求8所述的方法,其中,所述机器学习模型与所述知识图的一个或更多个机器学习模型共享一个或更多个特征。10.根据权利要求8所述的方法,其中,所述机器学习模型与所述知识图的一个或更多个机器学习模型共享问题域。
11.根据权利要求1所述的方法,其中,所述多个机器学习模型中的每个机器学习模型与用于表征该机器学习模型的一个或更多个标签相关联,并且其中,所述机器学习模型与一个或更多个初始特征相关联,所述...
【专利技术属性】
技术研发人员:夏应龙,胡卢慧,
申请(专利权)人:脸谱公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。