-
公开(公告)号:CN110058812B
公开(公告)日:2022-11-22
申请号:CN201910174765.X
申请日:2019-03-08
申请人: 中国农业科学院农业信息研究所 , 北京工业大学
IPC分类号: G06F16/906 , G06F16/901 , G06K9/62
摘要: 本发明设计了一种云环境下科学工作流数据放置方法,针对科学工作流数据密集及数据规模大的特征,首先根据工作流的数据和任务之间的关系,对数据进行预划分;然后把预划分的数据作为聚类的初始状态,结合数据规模及数据‑任务相关性特征,进行数据的聚类;最后结合数据中心可用存储容量的情况进行数据放置的决策和实施。实验证明本发明方法可以有效减少数据中心间的数据传输开销,提高数据放置的效率。
-
公开(公告)号:CN110058812A
公开(公告)日:2019-07-26
申请号:CN201910174765.X
申请日:2019-03-08
申请人: 中国农业科学院农业信息研究所 , 北京工业大学
摘要: 本发明设计了一种云环境下科学工作流数据放置方法,针对科学工作流数据密集及数据规模大的特征,首先根据工作流的数据和任务之间的关系,对数据进行预划分;然后把预划分的数据作为聚类的初始状态,结合数据规模及数据-任务相关性特征,进行数据的聚类;最后结合数据中心可用存储容量的情况进行数据放置的决策和实施。实验证明本发明方法可以有效减少数据中心间的数据传输开销,提高数据放置的效率。
-
公开(公告)号:CN111353529A
公开(公告)日:2020-06-30
申请号:CN202010110021.4
申请日:2020-02-23
申请人: 北京工业大学
IPC分类号: G06K9/62 , G06F16/906
摘要: 本发明设计了一种自动确定聚类中心的混合属性数据集聚类方法,针对K-Prototypes聚类算法中需人为指定初始聚类中心和聚类数目导致算法准确度和稳定性低下的问题,该方法分为初始化、聚类中心点预选取、确定聚类中心点、迭代聚类划分过程这四个步骤。该方法根据数据对象的密度分布,实现类簇个数的自动识别,并选择出初始聚类中心,优化初始选点造成的局部最优问题,另外通过区分每个属性对聚类结果的不同影响权重,改进相异度计算公式,提升了聚类的准确度,达到了更好的聚类效果。
-
公开(公告)号:CN111309906A
公开(公告)日:2020-06-19
申请号:CN202010083328.X
申请日:2020-02-09
申请人: 北京工业大学
摘要: 一种基于集成神经网络的长短混合型文本分类优化方法,属于自然语言处理领域,包括初始化、预处理、构建长文本分类算法、构建短文本分类算法、构建集成分类算法与迭代中止六个步骤。该方法首先使用基于预测的预训练词向量与基于统计的预训练词向量构建文本数据的双通道表示;其次在双通道文本表示基础上,提出融合通道特征的卷积优化算法,提高了传统卷积算法在文本数据上的空间特征提取能力;然后基于优化后的卷积算法分别设计了适用于长文本分类与短文本分类的独立算法;最后使用集成策略对独立算法进行自动评估与加权融合,集成后的算法在混合文本数据分类场景中表现出优异的性能,相比于已有经典算法具有更高的分类准确率与分类稳定性。
-
-
-