-
公开(公告)号:CN108897990A
公开(公告)日:2018-11-27
申请号:CN201810575946.9
申请日:2018-06-06
Applicant: 东北大学
Abstract: 本发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维序列数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的序列数据;将与目标类相关的序列数据执行细粒度的特征过滤;以g为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。
-
公开(公告)号:CN106506229A
公开(公告)日:2017-03-15
申请号:CN201611077438.5
申请日:2016-11-30
Applicant: 东北大学
CPC classification number: H04L41/50 , G06F9/5027 , H04L41/06 , H04L43/08 , H04L67/10
Abstract: 本发明提供一种SBS云应用自适应资源优化调整系统及方法,该系统包括:规则生成单元;监测单元;触发单元;动态决策单元;方案执行单元。该方法包括:生成自适应资源优化调整规则;在线实时获取SBS云应用的运行状态信息和云环境的运行状态信息;对SBS云应用进行自适应资源优化调整规则在线触发判断,确定触发的自适应资源优化调整规则;生成一组自适应资源优化调整动作,决策出自适应资源优化调整方案,进行SBS云应用自适应资源优化调整。本发明根据SBS云应用提供者与云环境提供者所签订的SLA,调整SBS云应用所占用的资源,实现了在保障SBS云应用性能的同时最小化资源调整的成本。
-
公开(公告)号:CN117951251A
公开(公告)日:2024-04-30
申请号:CN202410052881.5
申请日:2024-01-15
Applicant: 东北大学
IPC: G06F16/33 , G06F16/335 , G06F40/30 , G06F18/213 , G06F18/22 , G06F18/23213 , G06F18/25
Abstract: 本发明提供一种基于乘积量化的高效代码搜索方法,涉及代码搜索技术领域。该方法首先获取代码片段和代码片段对应的自然语言描述;并对获取的代码片段和对应的自然语言描述,进行预处理,提取代码片段的多种特征信息;然后构建代码片段特征向量;并将代码片段特征向量量化成低维向量;再针对用户输入的自然语言查询进行预处理,得到自然语言序列;进而构建自然语言查询向量;并对自然语言查询向量进行维度分段;进而为每个自然语言查询子向量构建查询表;最后在代码数据库中查找到与自然语言查询向量最为相似的代码片段;并使用重排对查询结果进行二次筛选。该方法可以在不牺牲基线代码搜索模型过多准确率的情况下,大幅度提升代码搜索速度。
-
公开(公告)号:CN117787379A
公开(公告)日:2024-03-29
申请号:CN202311810583.X
申请日:2023-12-26
Applicant: 东北大学
IPC: G06N3/082 , G06N3/042 , G06F18/2411 , G06F18/22 , G06F18/214
Abstract: 本发明提供一种基于Transform和对比学习的异构图神经网络容噪方法,涉及异构图神经网络技术领域。该方法首先根据节点对之间的特征相似度、转移概率和局部拓扑结构相似性对邻居节点的可信度打分,将可信度得分低于阈值的节点剪枝;构建特定于降噪场景下的Transform模型,自动的给弱噪声节点分配低的权重系数,弱化噪声节点的影响;最后在使用损失函数训练容噪异构图神经网络模型时,加入一个特定于降噪场景的对比学习损失,将目标节点与噪声节点的嵌入表示相似度降低,进一步强化容噪异构图神经网络模型的降噪能力。该方法提升异构图神经网络模型对于噪声数据的鲁棒性,使目标节点学习到干净的嵌入向量来提升下游任务的性能。
-
公开(公告)号:CN116469484A
公开(公告)日:2023-07-21
申请号:CN202310404563.6
申请日:2023-04-17
Applicant: 东北大学
IPC: G16C20/50 , G06F18/241 , G06F18/214 , G06N3/048
Abstract: 本发明提供一种基于双模态的药物靶标多标签分类方法,涉及药物靶标分类技术领域。该方法首先获得药物靶标数据集,并训练Transformer编码器,得到药物整体的向量表示;构建药物靶标数据集的靶标标签共现图,并生成若干个标签子空间;再将药物分割成多个药物子结构图构成一个药物图包;对于每个标签子空间中的若干靶标标签,在药物靶标数据集中获得所有与该靶标存在相互作用的药物,计算得到整个标签子空间的特征向量;在每个标签子空间中,获取药物图包的代表子结构特征向量;将药物图包的特征向量与药物SMILES序列的特征向量拼接后通过多标签分类器进行分类;将所有标签子空间上分类结果进行集成作为药物靶标的分类结果。
-
公开(公告)号:CN116403214A
公开(公告)日:2023-07-07
申请号:CN202310395061.1
申请日:2023-04-13
Applicant: 东北大学
IPC: G06V20/70 , G06V10/774 , G06V10/74 , G06V10/764 , G06V10/50 , G06V10/56 , G06F17/16
Abstract: 本发明提供一种能够处理新标记和缺失标记的图像标注方法,涉及图像分类技术领域。本发明通过对真实的原始图像数据集进行处理,获得多图数据集,将多图包中的每个图从图空间映射到高维特征空间,得到每个图的基于图核的图表示;利用权重矩阵对类别标记进行语义描述,对图与标记之间的关系进行建模;构造最小化目标函数以对图的新标记和缺失标记进行学习,通过加速近端梯度法和近端梯度法对最小化目标函数进行优化更新,得到更新后的权重矩阵,进而构建能够同时对新标记和缺失标记进行建模的分类器,给定测试集中的一个测试包,根据权重矩阵构建图级分类器,对测试包中的图进行标记预测,实现对未知多图包的标记预测,完成图像数据的标注。
-
公开(公告)号:CN114741579A
公开(公告)日:2022-07-12
申请号:CN202210563591.8
申请日:2022-05-23
Applicant: 东北大学
IPC: G06F16/951 , G06N3/12 , G06Q50/00
Abstract: 本发明提供一种结合属性信息和结构信息的大规模社区检测方法,涉及社区网络检测技术领域。该方法使用邻接表描述属性网络,确定属性网络中的核心顶点并标记;再将属性网络划分为多个子网络分配给不同计算单元,在各计算单元上对每个子网络进行社区划分;然后根据社区属性相似度值和模块度两个社区检测量化指标并利用属性权重向量,对社区划分结果进行优化;最后根据各个计算单元返回的子网络社区划分结果,对社区划分结果进行合并,得到最终整个属性网络的社区划分结果。该方法不需提前设定社区规模、可处理大规模网络数据,在结构信息与属性信息之间取得平衡,进而将复杂的属性网络划分成多个社区。
-
公开(公告)号:CN108897990B
公开(公告)日:2021-10-29
申请号:CN201810575946.9
申请日:2018-06-06
Applicant: 东北大学
Abstract: 本发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维SNP数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的SNP数据;将与目标类相关的SNP数据执行细粒度的特征过滤;以γ为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。
-
公开(公告)号:CN112395198A
公开(公告)日:2021-02-23
申请号:CN202011303967.9
申请日:2020-11-19
Applicant: 东北大学
IPC: G06F11/36
Abstract: 本发明提供一种基于区分子图挖掘的软件缺陷发现方法,涉及软件工程技术领域。该方法首先针对一个软件项目提取新旧两个版本的软件包,对新旧两个版本的软件包做相同数据预处理,构建程序的控制流图,并保存到文本文件中,获得正负两类图数据集;对保存到文本文件的控制流图中的程序语句进行哈希转化,使控制流图用程序语句哈希转化后的数值来表示;对得到的哈希转化后的正负两类图数据集进行覆盖图挖掘,得到覆盖图集;根据覆盖图集对正负两类图数据集中的控制流图均进行数据向量化;将数据向量化后的控制流图作为特征训练数据来训练极限学习机,采用投票机制得到训练模型,通过测试后的训练模型对待测程序文件进行测试,发现软件缺陷。
-
公开(公告)号:CN111461265A
公开(公告)日:2020-07-28
申请号:CN202010459805.8
申请日:2020-05-27
Applicant: 东北大学
Abstract: 本发明提供一种基于粗-细粒度多图多标签学习的场景图像标注方法,涉及图像分类技术领域。该方法首先获得原始场景图像数据集与对应的标签集,并对原始场景图像数据集进行数据预处理得到多图数据结构即图包;定义基于图核的图级分值函数和每个标签的包级分值函数;构建基于排序损失的目标函数;通过次梯度下降算法优化基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注。本发明方法基于定义的图级和包级分值函数,允许在粗粒度(包级)和细粒度(包中的图)上同时进行标签预测,扩展了传统多图多标签分类的范畴。
-
-
-
-
-
-
-
-
-