专利检索 ap:("哈尔滨工业大学(深圳)") AND inv:"孙志航" 第 1 页

1.

发明公开
一种基于强化学习的类型推断方法及装置有权

公开(公告)号：CN118246556A

公开(公告)日：2024-06-25

申请号：CN202410668413.0

申请日：2024-05-28

申请人： 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

发明人： 张加佳 , 高翠云 , 漆舒汉 , 孙志航 , 陈雨佳

IPC分类号： G06N5/04 , G06N3/0455 , G06N3/0499 , G06N3/092 , G06F16/35 , G06F8/41

摘要： 本发明公开了一种基于强化学习的类型推断方法及装置，包括：获取运行环境数据和代码数据，并对所述运行环境数据和所述代码数据进行预处理，得到合法类型序列及类型流序列；根据所述合法类型序列及所述类型流序列，进行带类型标注的代码生成任务的监督训练；根据生成的带类型标注的目标代码，进行静态反馈的强化学习训练，得到强化后的代码生成模型。本发明提出了使用基于生成的方法来预测类型，并通过强化学习来增强生成模型的类型预测的准确性，解决了现有的类型推断模型的预测结果与实际应用偏差较大的问题。

2.

发明授权
一种基于强化学习的类型推断方法及装置有权

公开(公告)号：CN118246556B

公开(公告)日：2024-11-12

申请号：CN202410668413.0

申请日：2024-05-28

申请人： 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

发明人： 张加佳 , 高翠云 , 漆舒汉 , 孙志航 , 陈雨佳

IPC分类号： G06N5/04 , G06N3/0455 , G06N3/0499 , G06N3/092 , G06F16/35 , G06F8/41

摘要： 本发明公开了一种基于强化学习的类型推断方法及装置，包括：获取运行环境数据和代码数据，并对所述运行环境数据和所述代码数据进行预处理，得到合法类型序列及类型流序列；根据所述合法类型序列及所述类型流序列，进行带类型标注的代码生成任务的监督训练；根据生成的带类型标注的目标代码，进行静态反馈的强化学习训练，得到强化后的代码生成模型。本发明提出了使用基于生成的方法来预测类型，并通过强化学习来增强生成模型的类型预测的准确性，解决了现有的类型推断模型的预测结果与实际应用偏差较大的问题。

3.

发明公开
一种细粒度专家行为模仿学习方法、装置、介质及终端审中-实审

公开(公告)号：CN115688858A

公开(公告)日：2023-02-03

申请号：CN202211285500.5

申请日：2022-10-20

申请人： 哈尔滨工业大学(深圳)

发明人： 漆舒汉 , 孙志航 , 殷俊 , 黄新昊 , 万乐 , 王轩 , 张加佳 , 王强

IPC分类号： G06N3/04 , G06N3/08 , G06F18/214

摘要： 本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端，方法包括，获取智能体的当前环境状态信息，将当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据预测信息控制智能体执行相应动作，采集任务完成情况信息和当前动作的状态信息；根据动作的状态信息计算单次奖励值，根据任务完成情况信息计算任务奖励值；根据单次奖励值及任务奖励值训练预设预测网络模型，将任务奖励值和每局若干单次奖励值相加，得到总奖励值，当总奖励值大于阈值时，完成对预设预测网络模型的训练并将输出的策略返回，上述方法降低了训练难度、提高了训练效率，无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。

4.

发明授权
一种细粒度专家行为模仿学习方法、装置、介质及终端有权

公开(公告)号：CN115688858B

公开(公告)日：2024-02-09

申请号：CN202211285500.5

申请日：2022-10-20

申请人： 哈尔滨工业大学(深圳)

发明人： 漆舒汉 , 孙志航 , 殷俊 , 黄新昊 , 万乐 , 王轩 , 张加佳 , 王强

IPC分类号： G06N3/04 , G06N3/08 , G06F18/214

摘要： 本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端，方法包括，获取智能体的当前环境状态信息，将当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据预测信息控制智能体执行相应动作，采集任务完成情况信息和当前动作的状态信息；根据动作的状态信息计算单次奖励值，根据任务完成情况信息计算任务奖励值；根据单次奖励值及任务奖励值训练预设预测网络模型，将任务奖励值和每局若干单次奖励值相加，得到总奖励值，当总奖励值大于阈值时，完成对预设预测网络模型的训练并将输出的策略返回，上述方法降低了训练难度、提高了训练效率，无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。