-
公开(公告)号:CN112241478B
公开(公告)日:2023-05-30
申请号:CN202011258545.4
申请日:2020-11-12
申请人: 广东工业大学
IPC分类号: G06F16/904 , G06N3/04 , G06N3/084
摘要: 本发明提出一种基于图神经网络的可视化降维方法,涉及深度学习、大规模数据处理的技术领域,解决了现有降维技术中,模型无法进行大规模数据训练、非参数式可视化降维模型无法处理未知数据点的可视化以及参数式可视化降维模型的可视化结果差的问题,对获取后的高维数据集进行划分和预处理后,构建异构图,建立GNN图神经网络模型,并确认损失函数,然后训练,训练完成后进行测试,损失函数面向高维大规模数据进行可视化降维,采用子图负采样的思想进行了创新训练,减少了模型的训练成本,且能把数据的维度降低,但保持住相当一部分的高维数据信息,使得后续的数据分析与处理变得更有意义且容易。
-
公开(公告)号:CN112163623A
公开(公告)日:2021-01-01
申请号:CN202011060417.9
申请日:2020-09-30
申请人: 广东工业大学
IPC分类号: G06K9/62
摘要: 本发明涉及机器学习技术领域,为克服上述现有技术所述的不能确定簇的质心、计算成本大、在聚类过程中出现过分割的缺陷,提出一种基于密度子图估计的快速聚类方法、计算机设备及存储介质,其中,基于密度子图估计的快速聚类方法包括以下步骤:获取样本,对样本进行预处理后组成数据集;对数据集中各个样本进行密度值估计,构建密度子图集合;从密度子图集合中找出每个密度子图的密度最高点作为该密度子图的代表点,把代表点对应的样本组成候选集;计算候选集中每个样本的重要值;将候选集根据重要值进行降序排序,选择前K个样本作为K个簇的质心;对候选集中非质心的样本进行归类,输出得到聚类结果。
-
公开(公告)号:CN112163069B
公开(公告)日:2024-04-12
申请号:CN202011033194.7
申请日:2020-09-27
申请人: 广东工业大学
IPC分类号: G06F16/33 , G06F16/35 , G06F40/284 , G06F18/24 , G06N3/042 , G06N3/0464 , G06N3/084
摘要: 本发明提出一种基于图神经网络节点特征传播优化的文本分类方法,解决了现有文本分类方法不能兼顾分类准确度和分类效率的问题,包括:获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵A;将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型;对图神经网络节点特征传播优化模型进行训练;利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。本发明将文本分类问题转换为节点分类问题,在保持节点分类的准确度下,提高节点特征传播的效率,从而提高文本分类的速度,同时减少文本标注数量,从而减少标注成本。
-
公开(公告)号:CN113159233A
公开(公告)日:2021-07-23
申请号:CN202110560658.8
申请日:2021-05-21
申请人: 广东工业大学
IPC分类号: G06K9/62
摘要: 本发明提出一种谱聚类加速方法、系统、计算机设备及存储介质,解决了当前谱聚类方法中,优秀锚点选取和K均值计算耗时长的问题,本发明提出一种谱聚类加速方法、系统、计算机设备及存储介质,相对于传统近似谱聚类通过选取的锚点和原始数据点构建的稀疏表示矩阵Z构建ZZT来近似表示拉普拉斯图矩阵,然后获得其相对应的特征向量进行K均值聚类,获得最终聚类结果矩阵的方法,本发明不须最后的K均值聚类,实际在待谱聚类的原始数据规模较大时,K均值聚类耗费时间长,本发明将K均值运算规模从所有点变成了锚点,减少优秀锚点的获取时间,在保证一定准确率的前提下,减少谱聚类近似算法计算时间,特别是大规模谱聚类问题,能大幅减少运算时间。
-
公开(公告)号:CN116383682A
公开(公告)日:2023-07-04
申请号:CN202310268227.3
申请日:2023-03-17
申请人: 广东工业大学
IPC分类号: G06F18/2321 , G06F18/23213
摘要: 本发明涉及密度峰值聚类技术领域,公开了一种基于k近邻密度支配域代表团的密度峰值聚类方法,通过使用支配域的密度和支配域间的支配距离快速获得簇心密度支配域,再利用支配关系构建的密度支配树,以K个簇心密度支配域为聚类中心,由上到下实现聚类,实现指定数目为K的聚类,同时以采样中心峰值区域作为密度峰值处产生的代表团,估计边缘节点数量,组成支配域代表团,提升代表点代能力,能够代表一个密度支配域的分布状况,本发明在不失密度支配域的快速聚类特征同时,也保证了聚类质量,更满足指定数目为K的聚类需求,关键参数也只有一个近邻数k,操作方便,对聚类分析工作具有一定的实用性。
-
公开(公告)号:CN112163623B
公开(公告)日:2022-03-04
申请号:CN202011060417.9
申请日:2020-09-30
申请人: 广东工业大学
IPC分类号: G06K9/62
摘要: 本发明涉及机器学习技术领域,为克服上述现有技术所述的不能确定簇的质心、计算成本大、在聚类过程中出现过分割的缺陷,提出一种基于密度子图估计的快速聚类方法、计算机设备及存储介质,其中,基于密度子图估计的快速聚类方法包括以下步骤:获取样本,对样本进行预处理后组成数据集;对数据集中各个样本进行密度值估计,构建密度子图集合;从密度子图集合中找出每个密度子图的密度最高点作为该密度子图的代表点,把代表点对应的样本组成候选集;计算候选集中每个样本的重要值;将候选集根据重要值进行降序排序,选择前K个样本作为K个簇的质心;对候选集中非质心的样本进行归类,输出得到聚类结果。
-
公开(公告)号:CN112381111A
公开(公告)日:2021-02-19
申请号:CN202011085687.5
申请日:2020-10-12
申请人: 广东工业大学
摘要: 本发明提供一种无监督的超图聚类方法,包括以下步骤:S1:获取具有属性的样本数据,并对其进行预处理;S2:构建超图以及超图的实例矩阵;S3:构建超边拉普拉斯矩阵并获取超边拉普拉斯矩阵的特征向量以及特征值;S4:对超边拉普拉斯矩阵的特征向量进行特征还原得到超图拉普拉斯矩阵的特征向量;S5:将超图拉普拉斯矩阵的特征向量作为指示向量输入到k均值算法进行顶点聚类,得到超图的顶点聚类结果,完成超图聚类。本发明提供一种无监督的超图聚类方法,通过使用超边拉普拉斯矩阵的特征向量进行还原解决超图聚类问题,避免了直接计算超图拉普拉斯矩阵的特征向量,解决了传统超图谱聚类模型具有较高的时间复杂度以及空间复杂度的问题。
-
公开(公告)号:CN112163069A
公开(公告)日:2021-01-01
申请号:CN202011033194.7
申请日:2020-09-27
申请人: 广东工业大学
摘要: 本发明提出一种基于图神经网络节点特征传播优化的文本分类方法,解决了现有文本分类方法不能兼顾分类准确度和分类效率的问题,包括:获取文本数据集,构成以文本节点、单词节点为基础的二元异构图,利用二元异构图形成对应的邻接矩阵A;将邻接矩阵A拆解,构建图神经网络节点特征传播优化模型;对图神经网络节点特征传播优化模型进行训练;利用训练好的图神经网络节点特征传播优化模型对文本数据集进行分类。本发明将文本分类问题转换为节点分类问题,在保持节点分类的准确度下,提高节点特征传播的效率,从而提高文本分类的速度,同时减少文本标注数量,从而减少标注成本。
-
公开(公告)号:CN112241478A
公开(公告)日:2021-01-19
申请号:CN202011258545.4
申请日:2020-11-12
申请人: 广东工业大学
IPC分类号: G06F16/904 , G06N3/04 , G06N3/08
摘要: 本发明提出一种基于图神经网络的可视化降维方法,涉及深度学习、大规模数据处理的技术领域,解决了现有降维技术中,模型无法进行大规模数据训练、非参数式可视化降维模型无法处理未知数据点的可视化以及参数式可视化降维模型的可视化结果差的问题,对获取后的高维数据集进行划分和预处理后,构建异构图,建立GNN图神经网络模型,并确认损失函数,然后训练,训练完成后进行测试,损失函数面向高维大规模数据进行可视化降维,采用子图负采样的思想进行了创新训练,减少了模型的训练成本,且能把数据的维度降低,但保持住相当一部分的高维数据信息,使得后续的数据分析与处理变得更有意义且容易。
-
-
-
-
-
-
-
-