一种面向句子级别的关系抽取方法、设备及存储介质

    公开(公告)号:CN114692637B

    公开(公告)日:2025-04-18

    申请号:CN202210288286.2

    申请日:2022-03-23

    Inventor: 范垂钦 王家兵

    Abstract: 本发明公开了一种面向句子级别的关系抽取方法、设备及存储介质,包括获得一个句子,在每个实体的两端分别插入特殊标记,输入预训练语言模型得到该句子每个词的词向量;使用随机初始化的多个关系向量分别对每个词向量计算相关度,进一步计算二分类损失;使用平均池化计算句子向量、实体向量,使用最大池化计算关系向量,将这些特殊输入多分类器得到多分类损失;将句子中的实体一定概率掩藏得到另外一个句子,衡量两个句子输出分布的一致性损失;对上述步骤中的所有损失联合训练。本发明能够有效抽取文本中的关键信息,捕捉文本中实体的联系,从而达到良好的关系抽取性能。

    一种优化的新型稠密子图提取方法、系统、装置及介质

    公开(公告)号:CN116578752A

    公开(公告)日:2023-08-11

    申请号:CN202310366864.4

    申请日:2023-04-06

    Inventor: 王钢 王家兵

    Abstract: 本发明公开了一种优化的新型稠密子图提取方法、系统、装置及介质,其中方法包括:获取原图中所有三角形,计算每个三角形的权重和顶点权重;初始化参数λ,根据计算的权重构造有向流图,将有向流图改造成相应的二部图;应用二部图的最大流算法求解最大流,进行二分搜索参数λ,并更新有向流图;根据搜索出的顶点集求解导出子图,作为目标稠密子图。本发明将原有向流图改造成二部图后,使用二部图的preflow‑push算法代替通用算法来求解源点s或s1到汇点t的最大流,可以极大地降低push和relabel的次数,降低了算法的时间复杂性,且拥有较高的稠密度。本发明可广泛应用于图网络数据挖掘领域。

    一种基于深度神经网络和成对约束的聚类方法

    公开(公告)号:CN109086805B

    公开(公告)日:2020-07-28

    申请号:CN201810765487.0

    申请日:2018-07-12

    Inventor: 黄嘉桥 王家兵

    Abstract: 本发明公开了一种基于深度神经网络和成对约束的聚类方法,给定一个包含数据间成对约束的数据集;得到数据集样本间的差向量;构建一个自编码网络和一个深度神经网络;将数据集样本作为自编码网络的输入,输入的数据集样本作为自编码网络的输出训练网络,将自编码网络瓶颈处的输出作为深度神经网络的输入,成对约束作为正确标记训练网络;将训练过的自编码网络和深度神经网络结合到聚类算法上;使用聚类算法进行聚类任务。本发明结合了原始数据集中数据间的成对约束,通过自编码网络对输入数据进行降维操作和深度神经网络学习特征,并且提出了该网络模型的损失函数及其基于梯度下降的优化算法,有效提高了聚类算法的聚类精度。

    一种基于深度神经网络和成对约束的聚类方法

    公开(公告)号:CN109086805A

    公开(公告)日:2018-12-25

    申请号:CN201810765487.0

    申请日:2018-07-12

    Inventor: 黄嘉桥 王家兵

    Abstract: 本发明公开了一种基于深度神经网络和成对约束的聚类方法,给定一个包含数据间成对约束的数据集;得到数据集样本间的差向量;构建一个自编码网络和一个深度神经网络;将数据集样本作为自编码网络的输入,输入的数据集样本作为自编码网络的输出训练网络,将自编码网络瓶颈处的输出作为深度神经网络的输入,成对约束作为正确标记训练网络;将训练过的自编码网络和深度神经网络结合到聚类算法上;使用聚类算法进行聚类任务。本发明结合了原始数据集中数据间的成对约束,通过自编码网络对输入数据进行降维操作和深度神经网络学习特征,并且提出了该网络模型的损失函数及其基于梯度下降的优化算法,有效提高了聚类算法的聚类精度。

    一种基于扩充训练数据集的类别不平衡问题分类方法

    公开(公告)号:CN108470187A

    公开(公告)日:2018-08-31

    申请号:CN201810161468.7

    申请日:2018-02-26

    Inventor: 俞彬 王家兵

    CPC classification number: G06K9/6269 G06K9/6256

    Abstract: 本发明公开了一种基于扩充训练数据集的类别不平衡问题分类方法,步骤包括:获取分类任务所需的真实数据集;在真实数据集中筛选出少数类样本,并区分出靠近和远离决策边界的样本;将上述样本作为输入,运行一个生成式对抗网络,得到与真实数据相似的人工样本;将一定数量的人工样本加入到真实数据集中,得到混合数据集;将混合数据集作为输入,使用分类器进行分类任务。本发明结合CycleGAN模型与原始数据集中的边界信息,有效地模拟了真实数据的分布特征。本发明对小样本数据进行过采样,提高了分类器的精度,有效改善了类别不平衡问题对分类任务造成的影响。

Patent Agency Ranking