一种短文本实体消歧方法

    公开(公告)号:CN112906397B

    公开(公告)日:2021-11-19

    申请号:CN202110366911.6

    申请日:2021-04-06

    申请人: 南通大学

    IPC分类号: G06F40/295 G06F16/35 G06N3/04

    摘要: 本发明提供一种基于深度学习的短文本实体消歧方法,主要用于解决语句中的实体在不同的短文本中存在含义不同指向的问题,包括如下步骤:步骤1、使用jieba分词技术对语句进行分词,找出待消歧实体,并且使用上市公司实体及其缩写作为词典;步骤2、对句子以待消歧实体为中心,32字大小进行切分;步骤3、将含有待消歧实体的语句转换为Bidirectional Encoder Representation from Transformers(BERT)词向量模型;步骤4、将词向量模型分批次放入到Long‑Short Term Memory RNN(LSTM)模型中,通过交叉熵进行损失函数计算,不断优化参数,获得最终模型。本发明不仅可以在特殊领域如公司实体上取得很好的结果,也可以在一般领域取得不错的结果。

    一种基于递归神经网络模型的代码注释生成方法

    公开(公告)号:CN113190219A

    公开(公告)日:2021-07-30

    申请号:CN202110497846.0

    申请日:2021-05-08

    申请人: 南通大学

    IPC分类号: G06F8/30 G06F8/41 G06N3/04

    摘要: 本发明提供一种基于递归神经网络模型的代码注释生成方法,主要用于解决开发人员节省编写注释所需的时间。包括如下步骤:使用scrapy从开源社区上爬取评分高的代码项目,获得java数据集;对获得的java数据集进行一些筛选和处理,优化数据集;将处理过的数据集输入Seq2Seq+Attention&Copy模型中,进行信息的编码;将输出的信息编码输入Attention机制层和Copy机制层得到上下文向量;将结构信息的编码输出和上下文向量输入解码层,由源代码注释和序列概率分布生成输出序列;基于已训练好的Seq2Seq+Attention&Copy代码注释模型,对代码进行自动注释。本发明中,自动代码注释生成不仅可以帮助开发人员理解源代码,还可以节省编写注释所需的时间。

    一种基于演化切片的演化影响集预测方法

    公开(公告)号:CN106844218B

    公开(公告)日:2020-06-23

    申请号:CN201710076573.6

    申请日:2017-02-13

    申请人: 南通大学

    IPC分类号: G06F11/36

    摘要: 本发明提供一种基于演化切片的演化影响集预测方法,主要用于构建演化影响集以辅助软件开发者和维护者作出演化策略,包括如下步骤:识别演化元素;生成演化切片准则;构建演化数据依赖图;构建演化控制依赖图;生成演化切片作为演化影响集;度量演化影响集。本发明公开的基于演化切片的演化影响集预测(ESISP)方法具有较高的查全率和较低的存伪率,能有效辅助软件开发人员和维护人员作出相关决策。

    一种基于对比学习改进的GCN推荐方法

    公开(公告)号:CN116503137A

    公开(公告)日:2023-07-28

    申请号:CN202310480864.7

    申请日:2023-04-28

    申请人: 南通大学

    摘要: 本发明属于推荐系统技术领域,具体涉及一种基于对比学习改进的GCN推荐方法。本发明包括以下步骤:S1:数据预训练,将yelp2018的数据集转化为用户id、商品id,评价的交互数据集;S2:模型训练,通过用户商品交互的数据集构建邻接矩阵,并分别构建对应的嵌入向量,然后合并在一起并添加有向随机噪声;S3:训练损失,使用贝叶斯个性化排序BPR损失和对比学习损失InfoNCE联合训练;S4:预测,通过LightGCN进行传播,获取预测结果,并通过计算recall:召回率和NDCG:归一化折损累计增益,衡量模型性能。本发明是在嵌入空间中添加随机均匀噪声来构建对比学习中的正负对,即减少了模型训练的计算成本和计算时间,也提高了模型的鲁棒性和泛化能力,从而提高了模型的性能。

    一种基于演化切片的演化影响集预测方法

    公开(公告)号:CN106844218A

    公开(公告)日:2017-06-13

    申请号:CN201710076573.6

    申请日:2017-02-13

    申请人: 南通大学

    IPC分类号: G06F11/36

    摘要: 本发明提供一种基于演化切片的演化影响集预测方法,主要用于构建演化影响集以辅助软件开发者和维护者作出演化策略,包括如下步骤:识别演化元素;生成演化切片准则;构建演化数据依赖图;构建演化控制依赖图;生成演化切片作为演化影响集;度量演化影响集。本发明公开的基于演化切片的演化影响集预测(ESISP)方法具有较高的查全率和较低的存伪率,能有效辅助软件开发人员和维护人员作出相关决策。

    一种短文本实体消歧方法

    公开(公告)号:CN112906397A

    公开(公告)日:2021-06-04

    申请号:CN202110366911.6

    申请日:2021-04-06

    申请人: 南通大学

    IPC分类号: G06F40/295 G06F16/35 G06N3/04

    摘要: 本发明提供一种基于深度学习的短文本实体消歧方法,主要用于解决语句中的实体在不同的短文本中存在含义不同指向的问题,包括如下步骤:步骤1、使用jieba分词技术对语句进行分词,找出待消歧实体,并且使用上市公司实体及其缩写作为词典;步骤2、对句子以待消歧实体为中心,32字大小进行切分;步骤3、将含有待消歧实体的语句转换为Bidirectional Encoder Representation from Transformers(BERT)词向量模型;步骤4、将词向量模型分批次放入到Long‑Short Term Memory RNN(LSTM)模型中,通过交叉熵进行损失函数计算,不断优化参数,获得最终模型。本发明不仅可以在特殊领域如公司实体上取得很好的结果,也可以在一般领域取得不错的结果。