-
公开(公告)号:CN118963824A
公开(公告)日:2024-11-15
申请号:CN202410973813.2
申请日:2024-07-19
Applicant: 广东工业大学
IPC: G06F8/73 , G06F8/41 , G06N3/0442 , G06N3/0455 , G06N3/045
Abstract: 本发明公开的属于代码注释生成技术领域,具体为一种基于语法优化和上下文增强的代码注释生成的方法,包括具体步骤如下:构建函数代码/参考注释对、分割数据集、函数代码预处理、构建代码注释词库、构建多模态模型、模型训练、生成目标代码函数注释。本发明通过将代码表示为抽象语法树及程序依赖图,并提出两种算法来简化AST的结构及扩充PDG节点的信息,通过这些改造,生成了两种新的模态:VFO‑AST和Context‑PDG,这些改进旨在降低AST的复杂性,丰富PDG节点的语义信息,并通过多模态方法融合不同的代码表示形式,以获取更丰富的代码表示,从而生成更高质量的代码注释。
-
公开(公告)号:CN117873487B
公开(公告)日:2024-06-21
申请号:CN202410056064.7
申请日:2024-01-15
Applicant: 广东工业大学
IPC: G06F8/41 , G06F18/214 , G06F18/21 , G06F18/243 , G06F40/169 , G06F40/242 , G06N3/042 , G06N3/044 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于GVG的代码注释生成方法,通过代码类别分类神经网络对训练代码函数数据进行分类能够识别代码类别,对多种编程语言进行注释。对所述训练代码函数数据进行函数预处理,生成代码函数序列数据;所述代码函数序列数据包括原始单词序列、原始代码标识符序列、标点符号序列,原始代码标识符包括驼峰标识符和蛇形标识符;在本发明中通过使用多个预设目标编码器使目标代码的注释生成更丰富;对不同的编程语言的代码生成相应注释;通过构建特征向量词库,供解码器在解码输出时使用,更好地处理OOV问题。
-
公开(公告)号:CN117873487A
公开(公告)日:2024-04-12
申请号:CN202410056064.7
申请日:2024-01-15
Applicant: 广东工业大学
IPC: G06F8/41 , G06F18/214 , G06F18/21 , G06F18/243 , G06F40/169 , G06F40/242 , G06N3/042 , G06N3/044 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于GVG的代码注释生成方法,通过代码类别分类神经网络对训练代码函数数据进行分类能够识别代码类别,对多种编程语言进行注释。对所述训练代码函数数据进行函数预处理,生成代码函数序列数据;所述代码函数序列数据包括原始单词序列、原始代码标识符序列、标点符号序列,原始代码标识符包括驼峰标识符和蛇形标识符;在本发明中通过使用多个预设目标编码器使目标代码的注释生成更丰富;对不同的编程语言的代码生成相应注释;通过构建特征向量词库,供解码器在解码输出时使用,更好地处理OOV问题。
-
-