基于云计算的网页排序方法

    公开(公告)号:CN103559258A

    公开(公告)日:2014-02-05

    申请号:CN201310536603.9

    申请日:2013-11-04

    Applicant: 同济大学

    CPC classification number: G06F17/30864

    Abstract: 本发明公开一种基于云计算的网页排序方法,该方法包括:通过对存储在云上的,经过分布式网页爬虫爬取的网络文件进行解析处理,得到网络的基本拓扑结构信息文件;离线计算PR值后存入相应的文档表,其格式为以url为主键,包含title,content,type,timestamp,outlinks(指出链接集合)等8个属性列的格式;由建立单个词-网页重要性的索引表也采用并行计算技术,此索引表格式为利用反向索引建立的以key,links(链接集合,且按重要性排序)的索引表格式;对离线的PageRank算法采用MapReduce的并行框架实现;当在线查询时,比较查询词和网页的相似度,结合离线查询的结果给出最终网页的排序。本发明的优点是采用了改进离线排序算法,充分利用了MapReduce并行框架,提高了离线排序的效率;采用了关键词技术和PageRank结合的技术使得结果更准确。

    基于云平台的消除近似重复网页方法

    公开(公告)号:CN103559259A

    公开(公告)日:2014-02-05

    申请号:CN201310537406.9

    申请日:2013-11-04

    Applicant: 同济大学

    CPC classification number: G06F17/30867

    Abstract: 本发明公开一种基于云平台的消除近似重复网页的实现方法,该方法包括以下步骤:网页预处理,提取网页正文;在正文中提取特征项用于表征正文内容;计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;基于特征指纹计算相似度,判定原始网页是否近似。本发明具有能够极大程度地减少遗漏近似重复网页重复,能较好地支持多种网页结构下的相似度计算等优点。

    一种基于自编码神经网络的符号图节点分类方法

    公开(公告)号:CN108345901A

    公开(公告)日:2018-07-31

    申请号:CN201810044169.5

    申请日:2018-01-17

    Applicant: 同济大学

    Inventor: 向阳 袁书寒

    Abstract: 本发明涉及一种基于自编码神经网络的符号图节点分类方法,该方法包括如下步骤:S1、基于符号图结构构建邻接矩阵;S2、基于自编码模型学习符号图节点的表示向量,使得由正边连接的两个节点的表示向量相近,而由负边连接的两个节点的表示向量远离;S3、在得到节点表示向量的基础上,利用少量有类型标签的节点训练分类器;S4、利用已经训练后的分类器预测未知节点的类型,输出节点类型,进而根据节点类型分类。与现有技术相比,本发明具有计算复杂度低、需要的训练数据较少、不需要重新训练新增节点等优点。

    一种基于云计算的分布式搜索方法

    公开(公告)号:CN103617174A

    公开(公告)日:2014-03-05

    申请号:CN201310536651.8

    申请日:2013-11-04

    Applicant: 同济大学

    CPC classification number: G06F17/30545 G06F17/30864

    Abstract: 本发明公开一种基于云计算的分布式搜索方法,该方法包括通过分布式的网络爬虫爬取多种格式的网络文件;通过分布式的并行抽取解析爬虫所爬取到的文件,抽取格式为自定义的文档表格式;将抽取好的文档内容存入分布式的数据库中,建立文档表数据库;由文档表数据库建立索引表也采用并行计算技术,索引表格式也为自定义的格式;将索引文件导入索引数据库,为检索器提供索引数据;对检索结果采用PageRank以及优化的在线排序算法。本发明的优点是利用了分布式存储和计算的特点;改进和优化的排序算法,检索结果更精准;采用了语义扩展关键词技术,查询结果更丰富。

    一种基于循环神经网络的图节点分类方法

    公开(公告)号:CN108304865A

    公开(公告)日:2018-07-20

    申请号:CN201810054311.4

    申请日:2018-01-19

    Applicant: 同济大学

    Inventor: 向阳 袁书寒 陆海

    Abstract: 本发明涉及一种基于循环神经网络的图节点分类方法,该方法包括如下步骤:S1、给定一个原始图,构建针对每个节点的中心图;S2、初始化每个中心图节点的初始状态表示向量,同时获取中心图邻接矩阵;S3、以中心图邻接矩阵和初始状态表示向量为输入,节点类型为输出训练基于循环神经网络的分类模型;S4、将原始图邻接矩阵和待分类的节点的初始状态表示向量输入至所述的分类模型得到节点类型。与现有技术相比,本发明能够捕捉图中节点全局信息和局部信息,分类准确度高。

    基于云计算的金融数据挖掘方法

    公开(公告)号:CN103559642A

    公开(公告)日:2014-02-05

    申请号:CN201310536760.X

    申请日:2013-11-04

    Applicant: 同济大学

    Abstract: 本发明公开一种基于云计算的金融数据挖掘方法,包括步骤:对获取的金融财务数据进行修正错误、格式转换等预处理操作;建立所需的神经元网格,网格为矩形分布,其个数为拥有的样本数量的1%;利用已经建立的网格和处理好的数据进行适应性训练;利用已经建立的网格和处理好的数据进行收敛性训练;利用训练好的神经元的权重来对数据进行离散化处理,使每个样本对应一个神经元;对每个离散点进行标号处理及可视化处理。本发明的优点是利用了分布式存储和计算的特点;利用了自组织神经网络特性,对数据降维并聚类处理;采用了可视化技术,更生动形象。

Patent Agency Ranking