-
公开(公告)号:CN118171291B
公开(公告)日:2024-09-20
申请号:CN202410595002.3
申请日:2024-05-14
Applicant: 北京大学
Abstract: 本发明提供一种代码漏洞检测大模型构建方法、装置和电子设备,涉及计算机技术领域,该方法包括:基于漏洞修复信息对初始大语言模型进行第一轮训练,获得第一大语言模型;基于奖励函数对第一大语言模型进行优化,获得第二大语言模型;针对各预设代码,对预设代码对应的值依赖图进行分析,确定预设代码对应的初始漏洞检测结果;基于预设代码对应的初始漏洞检测结果和漏洞标注结果,确定初始漏洞检测结果到漏洞标注结果的噪音转移矩阵;基于各预设代码分别对应的初始漏洞检测结果和噪音转移矩阵生成各预设代码分别对应的第二提示词,基于各第二提示词对第二大语言模型进行训练,获得目标大语言模型。本发明技术方案能够降低计算的复杂度。
-
公开(公告)号:CN118350462A
公开(公告)日:2024-07-16
申请号:CN202410767684.1
申请日:2024-06-14
Applicant: 人民法院信息技术服务中心 , 北京大学
Abstract: 本说明书涉及司法关系要素抽取技术领域,提供了一种基于标签向量正交约束的司法关系要素抽取方法及装置,该方法包括:对司法文本集合内每个司法文本中的实体对进行标注;在标注后的每个司法文本中增加针对所述实体对的关系提示语句;所述关系提示语句中的每个司法关系类型均由多个不同的掩码组成;将加入关系提示语句后的司法文本转换为向量化司法文本;以所述向量化司法文本为输入,以任务损失和正交损失共同作为优化参数,训练深度学习模型,以获得司法关系要素抽取模型;利用所述司法关系要素抽取模型,从待处理司法文本中抽取实体对的司法关系要素。本说明书实施例可以提高司法领域关系抽取要素的抽取精度。
-
公开(公告)号:CN111651198A
公开(公告)日:2020-09-11
申请号:CN202010312534.3
申请日:2020-04-20
Applicant: 北京大学
Abstract: 本发明实施例提供一种代码摘要自动化生成方法及装置,方法包括:基于代码摘要生成模型中的编码器分别对输入序列进行编码,获取输入序列的语义向量;基于代码摘要生成模型中的解码器对输入序列的语义向量进行解码,生成代码样本的函数名和代码摘要;根据生成的函数名、生成的代码摘要,以及预先获取的代码样本的目标函数名和目标代码摘要,计算代码摘要生成模型的损失函数的值,根据损失函数的值对代码摘要生成模型进行训练;将目标代码的输入序列输入训练好的代码摘要生成模型中生成目标代码的代码摘要。本发明实施例采用基于函数名预测任务和代码自动摘要生成任务的多任务学习机制对代码摘要生成模型进行训练,提升自动生成的代码摘要的质量。
-
公开(公告)号:CN119398030A
公开(公告)日:2025-02-07
申请号:CN202411185299.2
申请日:2024-08-27
Applicant: 北京大学
IPC: G06F40/205 , G06F40/30 , G06N20/00
Abstract: 本发明提供一种基于数据增强的事件抽取大模型构建方法,涉及数据处理技术领域,包括确定事件数据集对应的事件标注体系及第一提示词,第一提示词包括事件抽取任务定义、事件抽取任务指令及样本标注数据;根据事件标注体系及第一提示词,调用大语言模型对事件数据集进行事件抽取,得到第一标注数据;基于第二提示词,调用大语言模型对第一标注数据进行多次迭代更新,得到目标标注数据,第二提示词包括用于进行事件抽取错误反馈的反馈提示词及用于基于所生成的事件抽取错误反馈进行数据完善的完善提示词;基于目标标注数据及样本标注数据,得到数据增强的训练数据集,应用于大语言模型,得到训练好的事件抽取大模型。
-
-
公开(公告)号:CN119397267A
公开(公告)日:2025-02-07
申请号:CN202411185872.X
申请日:2024-08-27
Applicant: 北京大学
IPC: G06F18/214 , G06F18/21 , G06F18/241 , G06F18/10 , G06N5/04
Abstract: 本发明提供一种大模型预训练语料构建方法及装置,涉及数据处理技术领域,包括:将多个语料样本输入到目标大语言模型,输出各个所述语料样本对应的文本标量分数;将所述语料样本与所述语料样本对应的文本标量分数作为一个训练样本,获取多个训练样本;基于所述多个训练样本对分类器进行训练,得到训练好的目标分类器;其中,所述分类器所需的计算资源小于所述目标大语言模型;基于所述目标分类器对预设语料库中的各个语料样本进行筛选,得到高质量训练语料。
-
公开(公告)号:CN111666761B
公开(公告)日:2022-12-09
申请号:CN202010404188.1
申请日:2020-05-13
Applicant: 北京大学
IPC: G06F40/289 , G06F40/211 , G06N20/00
Abstract: 本发明实施例提供一种细粒度情感分析模型训练方法及装置,所述方法包括:获取带有情感标记以及方面词的文本信息;对文本信息中的每条语句进行分词处理,获取每条语句中每个词的上下文词向量,根据每个词的上下文词向量以及方面词的词向量得到文本信息中每条语句对应的语句向量;根据每条语句对应的语句向量获取每条语句的上下文语句向量,并获取每条语句基于方面词的语句权重,根据上下文语句向量与语句权重得到文本信息的文本向量;将文本向量、情感标记、以及方面词输入到循环神经网络,训练得到神经网络模型。采用本方法能够对文本数据的细粒度的各种方面情感类型进行识别,进而也提高了情感识别的准确率。
-
公开(公告)号:CN114548101A
公开(公告)日:2022-05-27
申请号:CN202210436226.0
申请日:2022-04-25
Applicant: 北京大学
IPC: G06F40/289 , G06F16/35 , G06K9/62 , G06N3/04
Abstract: 本发明涉及软件检测技术领域,提出一种基于可回溯序列生成方法的事件检测方法和系统,其中方法包括:对作为训练文本的输入句子进行编码;对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;对计算Luong注意力后的输入句子计算其中上下文向量;根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。根据本发明的方案,事件检测效率高,准确度高。
-
公开(公告)号:CN113946682A
公开(公告)日:2022-01-18
申请号:CN202111565272.2
申请日:2021-12-21
Applicant: 北京大学
Abstract: 本发明涉及一种基于自适应图神经网络的敏感文本检测方法及系统,方法包括:采集网络敏感文本,将敏感文本以及敏感文本的类型保存至数据库;解析敏感文本,过滤解析后的敏感文本,得到高质量敏感文本语料库;对语料库进行预处理,得到模型训练需要的敏感语句输入序列以及目标敏感类型序列;将敏感语句输入序列和目标敏感类型序列输入模型进行训练,训练后经过验证得到分类模型;将数据库中用于测试的文本信息输入分类模型,输出分类结果。本发明提出基于采用强化学习的自适应图神经网络,改模型基于图神经网络,能够很好的从敏感文本中提取有用特征,用强化学习来生成图,并输入图神经网络,提升文本分类的准确率。
-
公开(公告)号:CN114548101B
公开(公告)日:2022-08-02
申请号:CN202210436226.0
申请日:2022-04-25
Applicant: 北京大学
IPC: G06F40/289 , G06F16/35 , G06K9/62 , G06N3/04
Abstract: 本发明涉及软件检测技术领域,提出一种基于可回溯序列生成方法的事件检测方法和系统,其中方法包括:对作为训练文本的输入句子进行编码;对编码后的输入句子计算Luong注意力,并根据计算出的注意力权重定位出输入句子中权重最大的单词;对计算Luong注意力后的输入句子计算其中上下文向量;根据所述上下文向量,对输入句子进行解码,每时刻解码出一个事件类型的名称;根据解码结果、输入句子中包含的事件触发词、触发词触发的事件类型和预先定义的目标函数训练模型,得到事件监测模型;将作为待测文本的输入句子输入所述事件监测模型得到事件检测结果。根据本发明的方案,事件检测效率高,准确度高。
-
-
-
-
-
-
-
-
-