一种开放领域的迁移学习方法及系统

    公开(公告)号:CN108053030A

    公开(公告)日:2018-05-18

    申请号:CN201711348776.2

    申请日:2017-12-15

    申请人: 清华大学

    IPC分类号: G06N3/08

    CPC分类号: G06N3/084

    摘要: 本发明提供一种开放领域的迁移学习方法及系统,所述方法包括:将源领域样本集和目标领域样本集输入目标神经网络,以对目标领域样本集进行迁移学习,所述目标领域样本集对应的标签空间是所述源领域样本集对应的标签空间的子空间;其中,所述目标神经网络用于从所述源领域样本集中筛选出标签同时属于目标领域和源领域的第一样本集以及标签只属于源领域的第二样本集,并促进所述第一样本集产生的正迁移并抑制所述第二样本集产生的负迁移。本发明提供的一种开放领域的迁移学习方法及系统,有效解决了开放领域下的迁移学习问题。

    对抗式时空大数据预测方法

    公开(公告)号:CN108009632A

    公开(公告)日:2018-05-08

    申请号:CN201711342473.X

    申请日:2017-12-14

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    CPC分类号: G06N3/0454 G06N3/084

    摘要: 本发明提供一种对抗式时空大数据预测方法,包括:将时空序列输入训练好的对抗式卷积递归神经网络模型,获取预测结果;所述对抗式卷积递归神经网络模型由预测器和判别器构成,所述判别器为卷积神经网络;所述预测器用于根据输入所述预测器的时空序列输出预测时空序列,所述预测器用于根据输入所述判别器的时空序列输出真实性概率向量;所述模型应用所述真实性概率向量构建的损失函数进行训练。本发明提供的方法,基于对抗式卷积递归神经网络模型,应用判别器输出的真实性概率向量构建损失函数,更好的保留了预测值和真实值在结构层面和语义层面的差距,使得时空数据的预测纹理更加清晰、结构更加完整、语义更加准确。

    基于正反卷积神经网络的时空大数据预测方法和系统

    公开(公告)号:CN107992938A

    公开(公告)日:2018-05-04

    申请号:CN201711192977.8

    申请日:2017-11-24

    申请人: 清华大学

    IPC分类号: G06N3/04 G06Q10/04

    CPC分类号: G06N3/0454 G06Q10/04

    摘要: 本发明提供一种基于正反卷积神经网络的时空大数据预测方法和系统,方法包括:将时空大数据输入训练好的正反卷积神经网络模型,获取预测结果;训练好的正反卷积神经网络模型通过如下步骤获取:根据任一时刻卷积记忆和任一时刻卷积输出门获取任一时刻卷积输出,构建任一时刻卷积长短时间记忆单元;根据任一时刻反卷积记忆和任一时刻反卷积输出门获取任一时刻反卷积输出,构建任一时刻反卷积长短时间记忆单元;搭建正反卷积神经网络模型;将由观测值组成的张量序列数据输入正反卷积神经网络模型进行训练,获得训练好的正反卷积神经网络模型。本发明通过分析和学习过去观测到的数据,对时空数据的隐含特征进行学习,预测未来的时空大数据序列。

    基于深度时空记忆网络的高维序列数据预测方法和系统

    公开(公告)号:CN107958044A

    公开(公告)日:2018-04-24

    申请号:CN201711190694.X

    申请日:2017-11-24

    申请人: 清华大学

    IPC分类号: G06F17/30 G06N3/04 G06N3/08

    CPC分类号: G06F16/28 G06N3/0454 G06N3/08

    摘要: 本发明提供一种基于深度时空记忆网络的高维序列数据预测方法和系统,方法包括:将高维序列数据输入训练好的预测循环神经网络模型,获取预测结果;其中,训练好的预测循环神经网络模型通过如下步骤获取:根据第一输入门、第一遗忘门和第一输入调制门搭建任一时刻记忆;根据第二输入门、第二遗忘门和第二输入调制门搭建任一层记忆;搭建任一输出门;更新任一隐藏状态;基于任一时刻记忆、任一层记忆和更新的任一隐藏状态构建任一时空记忆单元;搭建预测循环神经网络模型,将张量序列数据输入预测循环神经网络模型进行训练,获得训练好的预测循环神经网络模型。本发明使得预测的结果能够涵盖时间维度和空间维度的趋势,预测结果更加精准。

    一种基于深度融合哈希的大数据跨模态检索方法及系统

    公开(公告)号:CN107871014A

    公开(公告)日:2018-04-03

    申请号:CN201711184981.X

    申请日:2017-11-23

    申请人: 清华大学

    IPC分类号: G06F17/30

    摘要: 本发明提供一种基于深度融合哈希的大数据跨模态检索方法,包括:识别待检索数据的数据类型,若待检索数据的数据类型为图像,则将待检索的图像输入到训练后的图像哈希网络中,获取所述待检索的图像对应的图像二进制码;计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离;在所述检索库中选取第一汉明距离最小的预设数量的语句作为待检索数据的数据类型为图像的检索结果。本发明提供的基于深度融合哈希的大数据跨模态检索方法及系统,通过捕获视觉数据和自然语言之间的内在交叉对应关系,从而在端到端深度学习架构中生成图像和语句的紧凑哈希码,提高了跨模态检索的准确率。

    一种分布式迭代计算系统的任务参数优化方法

    公开(公告)号:CN106021495B

    公开(公告)日:2017-10-31

    申请号:CN201610341201.7

    申请日:2016-05-20

    申请人: 清华大学

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种分布式迭代计算系统中的任务参数优化方法,属于分布式数据处理技术领域。本方法首先采集分布式迭代计算系统中历史任务的运行数据,构建历史数据库;进行任务参数优化时,根据约束条件对历史数据库中显著不相关的运行数据进行一次过滤;然后对待优化任务对应的历史数据库中的运行数据与一次过滤后的运行数据进行有向无环图的相似度计算,并对相似度低于一定阈值的运行数据进行二次过滤;最后将两次过滤后的结果经过计算排序,并将排序后的运行数据所对应的任务参数作为任务参数优化结果。本发明能自动进行分布式迭代计算系统的任务参数优化,是一种即插即用型自适应调优方法,能够显著降低用户使用分布式迭代计算系统的门槛。

    通过分析用户主动交友意愿进行朋友推荐的方法

    公开(公告)号:CN103942278B

    公开(公告)日:2017-05-17

    申请号:CN201410128737.1

    申请日:2014-04-01

    申请人: 清华大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种通过分析用户主动交友意愿进行朋友推荐的方法,涉及计算机社交网络技术领域,包括:初始化用户交友意愿特征矩阵P和Q,计算有向邻接矩阵H,循环迭代计算H的不一致性,并迭代更新P和Q,计算新的H。根据H识别每一对关系的发起者和接受者,区分用户的积极朋友和消极朋友,据此为每一个用户推荐新的朋友。本发明方法对无向社交关系中用户的主动交友意愿进行合理推断,从而更加准确地捕捉用户的个人兴趣和交友偏好,能够为无向社交网络提供更加准确的朋友推荐服务,也能够有利于社交网络的各类进一步分析工作。

    一种电子病历高质短语抽取方法

    公开(公告)号:CN106649256A

    公开(公告)日:2017-05-10

    申请号:CN201610836685.2

    申请日:2016-09-21

    申请人: 清华大学

    发明人: 尚昭 金涛 王建民

    IPC分类号: G06F17/27 G06F19/00

    摘要: 本发明涉及一种电子病历高质短语抽取方法,属于大数据检索技术领域,该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段。首先进行频繁短语挖掘,基于频度统计,当短语出现频度大于阈值时,认为该短语频繁;然后,根据先验短语集对生成的频繁短语候选进行短语质量评估;接着,根据评估出的短语质量值进行短语切分,并修正错误的原始频率估计;最后,将切分结果中的高质短语加入先验短语集,完成高质短语抽取及先验短语集更新,以便在下次短语切分时,达到更好的切分效果。本方法能够有效抽取电子病历中的高质短语,抽取出的短语是病历中的常用词汇,且符合医生的使用习惯。

    分布式计算机数据存储系统中多副本一致性的控制方法

    公开(公告)号:CN103986694B

    公开(公告)日:2017-02-15

    申请号:CN201410165580.X

    申请日:2014-04-23

    申请人: 清华大学

    发明人: 王建民 黄向东

    摘要: 本发明涉及一种分布式计算机数据存储系统中多副本一致性的控制方法,属于计算机数据管理技术领域。首先根据设定的分布式系统的副本差异度,计算并设定分布式存储系统的节点的转发队列和执行队列长度,节点接收到读写请求后,首先判断节点的转发或执行队列的长度是否小于设定的阈值,若小于阈值,则将请求插入到相应的队列中,若大于或等于阈值,则将插入操作阻塞,直到队列长度小于阈值后,取消阻塞,将请求插入到相应的队列中。本发明方法通过对队列的长度控制和阻塞操作,能够使分布式存储系统的副本差异准确地维持在一定范围内,方法直观有效、便于使用。

    一种基于速度约束的全球卫星定位系统数据的修正方法

    公开(公告)号:CN105652300A

    公开(公告)日:2016-06-08

    申请号:CN201510977759.X

    申请日:2015-12-23

    申请人: 清华大学

    IPC分类号: G01S19/40

    CPC分类号: G01S19/40

    摘要: 本发明涉及一种基于速度约束的GPS数据的修正方法,该方法包括:构建速度约束模型,该速度约束模型是进行GPS时间序列修正时的参考,即修正后的GPS时间序列应该满足速度约束模型;确定修复方案:根据确定的修复方案在线对选择的GPS时间序列进行修正。本方法能够针对更多变的情况。并且使用约束条件能够使得GPS数据修复进行的更快以及更加精确。