一种基于对抗数据增强的医疗文本专业分类方法

    公开(公告)号:CN115688768A

    公开(公告)日:2023-02-03

    申请号:CN202211419992.2

    申请日:2022-11-14

    申请人: 广州大学

    摘要: 本发明涉及医疗文本专业分类领域,且公开了一种基于对抗数据增强的医疗文本专业分类方法,对医疗文本数据进行预处理;基于对抗攻击数据增强方法提高医疗文本数据集的质量;将预处理好的医疗文本构建为词向量矩阵,作为卷积神经网络的输入或者调整为与训练模型要求的格式作为预训练模型的输入;基于关键文本概率信息的分类层,该基于对抗数据增强的医疗文本专业分类方法,有效缓解了医疗文本专业分类数据集面临的数据量不足、质量差和类别不平衡的问题,由于本发明采用了多步对抗攻击来产生增强样本,因此产生的增强数据不只是简单的与原始数据相似,还能达到覆盖更大的模型决策空间的特点。

    全连接网络模型梯度泄露输入的风险评估指标的方法

    公开(公告)号:CN115618404A

    公开(公告)日:2023-01-17

    申请号:CN202211115785.8

    申请日:2022-09-14

    申请人: 广州大学

    摘要: 本发明涉及人工智能技术领域,公开了一种全连接网络模型梯度泄露输入的风险评估指标的方法,包括以下步骤:S1:构建多分类多输入任务的梯度与输入关系方程式;S2:计算四个风险级别下系数矩阵的秩和条件数,来评估梯度泄露数据的风险;S3:从第一风险级别开始评估,直到某一个风险级别达标,则认证为当前模型的梯度泄露数据的风险级别。本发明全连接网络模型梯度泄露输入的风险评估指标的方法,与现有的梯度泄露输入的指标相比,本发明提出的评估方法是高效的且更符合现实的评估需求,本发明提供的方法不依赖于任何预训练的统计模型,适用于被普遍采用的多分类多输入样本的模型训练任务;本发明提出的指标是准确的,具备严格的理论依据。

    一种横向联邦学习的自适应性参数融合方法

    公开(公告)号:CN113205180A

    公开(公告)日:2021-08-03

    申请号:CN202110549341.4

    申请日:2021-05-20

    申请人: 广州大学

    IPC分类号: G06N3/04 G06N3/08 G06K9/62

    摘要: 本发明公开了一种横向联邦学习的自适应性参数融合方法,包括:步骤S1,初始化全局神经网络模型和后置参数并同步各参与方模型参数;步骤S2,将参与方排序;步骤S3,依序选择参与方进行第一阶段的模型训练,各参与方利用批数据仅更新自身的模型参数;步骤S4,第二阶段,依次遍历所有参与方,选择批训练数据和前一个参与方l‑1的后置参数Hl‑1进行局部模型参数融合得到当前参与方后置参数Hl,并计算批数据的损失值,得到当前参与方的计算图,在所有计算图构建完毕后,基于梯度下降最小化损失值更新融合参数;步骤S5,将各参与方的模型参数Wl改变为其后置参数Hl;步骤S6,重复S3‑S5,直至达到设定的迭代次数。

    一种基于标签重复率的联邦学习梯度防御方法

    公开(公告)号:CN116028804A

    公开(公告)日:2023-04-28

    申请号:CN202211426095.4

    申请日:2022-11-14

    申请人: 广州大学

    摘要: 本发明涉及人工智能领域,且公开了一种基于标签重复率的联邦学习梯度防御方法,经对梯度泄露数据的关系方程式的秩分析,揭示了批样本中如果存在相同的标签且所获得的标签预测概率相近时,可有效地降低梯度泄露攻击的效果,即难以从梯度中重构出输入样本。因此我们在数据集加载阶段中,对数据集的样本按照标签种类放置在对应的标签桶,然后在标签桶内将样本按置信度放置在对应的置信度层,最后按照标签重复个数的设定来构成样本组合,并打乱样本组合构成新的数据集,该基于标签重复率的联邦学习梯度防御方法,通过对梯度泄露数据的关系方程式的秩分析,从理论上论证了标签重复率对梯度泄露攻击的防御,并在实际应用中得到了验证。

    一种联邦学习过程中泄露输入信息的风险评估指标方法

    公开(公告)号:CN115495779A

    公开(公告)日:2022-12-20

    申请号:CN202211115765.0

    申请日:2022-09-14

    申请人: 广州大学

    IPC分类号: G06F21/62 G06N3/08

    摘要: 本发明涉及人工智能技术领域,公开了一种联邦学习过程中泄露输入信息的风险评估指标方法,包括以下步骤:S1:参与方选取一批个数为B的待训练样本(X,Y),并计算批样本梯度G和其中各样本的梯度G(i);S2:选取某一样本x(i),计算所选样本的梯度信息比InfoR(x(i));S3:通过梯度信息比InfoR(x(i)),获取样本x(i)被批样本梯度G所泄露的风险程度,以达到输入样本特征泄露风险的评估。本发明可以满足参与方针对隐私重要性较高的样本给予更小的隐私预算,即不同样本给予不同的隐私保护强度,从而满足差异化隐私保护的目的,从而减小了隐私保护策略对模型训练和可用性的影响。

    一种学习过程中模型梯度泄露输入信息的风险评估方法

    公开(公告)号:CN115329337A

    公开(公告)日:2022-11-11

    申请号:CN202210799021.9

    申请日:2022-07-08

    申请人: 广州大学

    IPC分类号: G06F21/57 G06F21/71 G06N20/00

    摘要: 本发明涉及人工智能技术领域,公开了一种学习过程中模型梯度泄露输入信息的风险评估方法,包括以下步骤:S1:对本地数据集进行采样,得到本地采样数据集;S2:分析本地采样数据集,从而得到本地采样数据样本的参数梯度;S3:计算本地采样数据样本与采样样本参数梯度的互信息值;S4:当该互信息值达到设定程度时,发出隐私泄露风险提醒,否则将该参数梯度上传至服务器。该学习过程中模型梯度泄露输入信息的风险评估方法,与现有的梯度泄露输入的指标相比,梯度信息比可以衡量批样本中的每个样本被批样本梯度泄露的风险程度,不同样本的隐私重要性不同,那么参与方对所上传的批样本梯度将会引入隐私保护的机制。