用于学习程序嵌入的深度学习模型制造技术

技术编号：29989388 阅读：49 留言：0更新日期：2021-09-11 04:25

公开了一种使用深度学习模型来学习程序语义的系统和方法。所述方法包括接收程序的多个执行跟踪，每个执行跟踪包括多个变量值。所述多个变量值通过第一循环神经网络进行编码以针对每个执行跟踪生成多个程序状态。然后，双向循环神经网络可以从所述多个程序状态中确定每个执行跟踪的一组减少的程序状态。然后所述一组减少的程序状态通过第二循环神经网络进行编码以生成所述程序的多个执行。然后，所述方法包括池化所述多个执行以生成程序嵌入以及使用所述程序嵌入预测所述程序的语义。入以及使用所述程序嵌入预测所述程序的语义。入以及使用所述程序嵌入预测所述程序的语义。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于学习程序嵌入的深度学习模型
[0001]相关申请交叉引用
[0002]本申请是2019年1月17日提交的第62/793,500号美国临时申请的非临时申请并且要求其权益，所述非临时申请以全文引用的方式并入本文中。

技术介绍

[0003]开源软件的增长趋势和机器学习技术的快速发展使“大代码”的概念具体化。这个概念正在重复使用从现有代码存储库中提取的知识以例如简化软件开发并且提高产品质量。本领域的一些早期方法主要将源代码处理成一段文本，并且应用来自自然语言处理域的现成模型(Abram Hindle、Earl T Barr、Zhendong Su、Mark Gabel和Premkumar Devanbu。关于软件的自然性，在软件工程(ICSE)，2012年第34届国际会议，第837
‑
847页，IEEE，2012年，Rahul Gupta，Soham Pal，Aditya Kanade和Shirish Shevade。深度修复：使用深度学习修复常见的c语言错误，2017年，Yewen Pu、Karthik Narasimhan、Armando Solar Lezama和Regina Barzilay。sk_p：一种用于慕课的神经程序校正器，在2016年ACM SIGPLAN系统、编程、语言和应用国际会议的配套会议记录：人类软件，第39
‑
40页，ACM，2016年)，而后来的方法是用抽象句法树(AST)建模程序(Chris Maddison和Daniel Tarlow。自然源代码的结构化生成模型...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：接收程序的多个执行跟踪，每个执行跟踪包括多个变量值；由第一循环神经网络对所述多个变量值进行编码以针对每个执行跟踪生成多个程序状态；由双向循环神经网络从所述多个程序状态中确定每个执行跟踪的一组减少的程序状态；由第二循环神经网络对所述一组减少的程序状态进行编码以生成所述程序的多个执行；池化所述多个执行以生成程序嵌入；以及使用所述程序嵌入预测所述程序的语义。2.根据权利要求1所述的方法，其中预测所述程序的语义包括返回一系列程序函数中的一个程序函数的概率。3.根据权利要求1所述的方法，其中所述一组减少的程序状态中的状态比所述多个程序状态中的状态少50％。4.根据权利要求1所述的方法，其中所述多个执行跟踪中的每个执行跟踪是使用随机生成的输入生成的。5.根据权利要求1所述的方法，其中确定一组减少的程序状态包括：根据所述多个程序状态计算前向序列；根据所述多个程序状态计算后向序列；以及对于所述多个程序状态中的每个程序状态：根据所述前向序列确定前向上下文向量；根据所述后向序列确定后向上下文向量；并且至少基于所述前向上下文向量和所述后向上下文向量确定将所述程序状态包括在所述一组减少的程序状态中。6.根据权利要求5所述的方法，其中确定所述前向上下文向量包括池化所述前向序列的分量子集，所述前向序列的所述分量子集包括来自第一s
‑
1程序状态的信息，并且其中确定所述后向上下文向量包括池化所述后向序列的分量子集，所述后向序列的所述分量子集包括来自最后m
‑
s程序状态的信息。7.根据权利要求5所述的方法，其中确定将所述程序状态包括在所述一组减少的程序状态中是由多层感知器执行的。8.根据权利要求1所述的方法，其中预测语义是通过归一化指数函数的输出执行的。9.根据权利要求1所述的方法，其中所述程序已经变异。10.根据权利要求1所述的方法，其中所述方法被优化以使交叉熵损失最小化并且使所述一组减少的程序状态中的程序状态的数量最小化。11.一种计算机，包括：处理器；以及计算机可读介质，其包括能由所述处理器执行以实施方...

【专利技术属性】
技术研发人员：王轲，
申请(专利权)人：维萨国际服务协会，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人