-
公开(公告)号:CN109558376A
公开(公告)日:2019-04-02
申请号:CN201811331513.5
申请日:2018-11-09
申请人: 浙江工业大学
摘要: 一种面向MapReduce框架的有效计算与数据传输重叠执行方法,将Mapper端的有效计算、数据传输和Reducer端的有效计算以流水的方式重叠执行,隐藏数据传输延迟。首先,将粗粒度数据块Block细分为细粒度数据块FG-Block,作为流水处理的基本单位,Mapper端读取完FG-Block数据,完成有效计算之后即可处理下一个FG-Block;其次,当溢写文件满足文件发送阈值即可开启数据传输,将数据从Mapper端传输到Reducer端,然后等待传输后续溢写文件;再次,Reducer端接收到数据之后,启动有效计算,如果存在数据依赖的操作,则等待数据全部传输完成进行计算;第四,以FG-Block为单位进行迭代处理,执行过程相互重叠,数据传输被隐藏于有效计算中;最后,Reducer端接收完所有数据,做最后的统计计算。
-
公开(公告)号:CN109145049A
公开(公告)日:2019-01-04
申请号:CN201811087121.9
申请日:2018-09-17
申请人: 浙江工业大学
IPC分类号: G06F16/26
摘要: 一种基于增量日志的数据组合视图实时更新方法。首先,将分布式异构数据源中的数据集封装为数据服务,这些数据服务封装了对分布式异构数据访问的接口;其次,根据用户的数据需求,选取并组合平台中已经注册的原子数据服务,组合生成复合数据服务;再次,执行复合数据服务里得到数据组合视图,并将数据组合视图中的数据进行缓存;最后,通过解析数据源的增量日志,实时更新视图的缓存数据。本发明为基于数据服务的数据集成提供了一种有效的数据组合视图实时更新方法,保证了数据的新鲜度。
-
公开(公告)号:CN112131395B
公开(公告)日:2023-09-26
申请号:CN202010869967.9
申请日:2020-08-26
申请人: 浙江工业大学
IPC分类号: G06F16/36 , G06N3/0464 , G06F18/214 , G06F18/22 , G06F40/30
摘要: 一种基于动态阈值的迭代式知识图谱实体对齐方法,本发明联合采用翻译模型和图卷积模型,分别自动学习关系语义信息以及实体的结构信息,并通过引入注意力机制减少不重要的邻节点带来的噪音,得到节点和关系的嵌入式表示;通过预对齐实体对集合,根据对齐的损失函数将两个知识图谱的实体映射到同一个向量空间当中;通过所设计的迭代对齐策略捕获可能的实体对,将这些实体对加入到训练集当中,参与到下一轮训练,直至实体的嵌入收敛,得到最终的实体嵌入,然后计算实体的相似度将实体进行对齐。本发明提出的迭代式知识图谱对齐方法减少了对人工标注实体数量的依赖,提高了实体对齐的准确率。
-
公开(公告)号:CN113254663B
公开(公告)日:2022-06-17
申请号:CN202110430124.3
申请日:2021-04-21
申请人: 浙江工业大学
摘要: 一种融合图卷积与翻译模型的知识图谱联合表示学习方法,包括以下步骤:1)根据知识图谱构建其相对应的直接邻接矩阵和间接邻接矩阵;2)设计图卷积网络,包括一个输入层、两个隐藏层和一个输出层,优化邻接点节点对中心节点的注意力系数,通过学习直接邻节点和间接邻节点的结构信息得到节点的向量表示;3)采用翻译模型学习关系的语义信息,得到实体和关系的向量表示;4)将图卷积网络和翻译模型相融合,通过不断的迭代学习得到知识图谱的最终向量表示。本发明能够同时学习知识图谱的结构信息和关系语义,提高知识图谱的向量表示精度。
-
公开(公告)号:CN111198950B
公开(公告)日:2021-10-15
申请号:CN201911344270.3
申请日:2019-12-24
申请人: 浙江工业大学
IPC分类号: G06F16/36 , G06F16/28 , G06F40/284 , G06F40/30 , G06K9/62
摘要: 一种基于语义向量的知识图谱表示学习方法,包括以下步骤:1)融合文本语料库的语义向量构建;2)融合文本语料库及知识图谱上下文的语义向量构建;3)语义矩阵的构建,过程如下:以三元组和关系的语义向量作为输入,得到每个关系对应的语义矩阵;4)建模与训练,过程如下:设计了一个新的得分函数对知识图谱中实体和关系的嵌入表示进行建模,得到所述知识图谱的嵌入表示模型;使用随机梯度下降法训练所述嵌入表示模型,使得损失函数的值最小化,得到最终知识图谱中实体和关系的语义向量。本发明提出的表示学习方体能够较为对知识图谱的复杂关系进行建模,并能够提高向量表示的精确度。
-
公开(公告)号:CN113254663A
公开(公告)日:2021-08-13
申请号:CN202110430124.3
申请日:2021-04-21
申请人: 浙江工业大学
摘要: 一种融合图卷积与翻译模型的知识图谱联合表示学习方法,包括以下步骤:1)根据知识图谱构建其相对应的直接邻接矩阵和间接邻接矩阵;2)设计图卷积网络,包括一个输入层、两个隐藏层和一个输出层,优化邻接点节点对中心节点的注意力系数,通过学习直接邻节点和间接邻节点的结构信息得到节点的向量表示;3)采用翻译模型学习关系的语义信息,得到实体和关系的向量表示;4)将图卷积网络和翻译模型相融合,通过不断的迭代学习得到知识图谱的最终向量表示。本发明能够同时学习知识图谱的结构信息和关系语义,提高知识图谱的向量表示精度。
-
公开(公告)号:CN111198950A
公开(公告)日:2020-05-26
申请号:CN201911344270.3
申请日:2019-12-24
申请人: 浙江工业大学
IPC分类号: G06F16/36 , G06F16/28 , G06F40/284 , G06F40/30 , G06K9/62
摘要: 一种基于语义向量的知识图谱表示学习方法,包括以下步骤:1)融合文本语料库的语义向量构建;2)融合文本语料库及知识图谱上下文的语义向量构建;3)语义矩阵的构建,过程如下:以三元组和关系的语义向量作为输入,得到每个关系对应的语义矩阵;4)建模与训练,过程如下:设计了一个新的得分函数对知识图谱中实体和关系的嵌入表示进行建模,得到所述知识图谱的嵌入表示模型;使用随机梯度下降法训练所述嵌入表示模型,使得损失函数的值最小化,得到最终知识图谱中实体和关系的语义向量。本发明提出的表示学习方体能够较为对知识图谱的复杂关系进行建模,并能够提高向量表示的精确度。
-
公开(公告)号:CN111274327B
公开(公告)日:2021-08-03
申请号:CN202010021995.5
申请日:2020-01-09
申请人: 浙江工业大学
摘要: 一种面向非结构化表格文档的实体与关系抽取方法,将非结构化表格文档划分为离散的单值表格和多值表格;采用表格位置特征和文本规则从单值表格中抽取出知识,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式;利用表格位置和文本规则从多值表格中抽取出知识,对字符串进行语义分割,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式。本发明给出的实体与关系抽取方法能够将非结构化表格文档的信息处理成结构化数据,并准确的抽取出其中的实体、关系、属性及属性值,形成三元组集合,为进一步构建知识图谱的工作奠定了良好的基础。
-
公开(公告)号:CN112131395A
公开(公告)日:2020-12-25
申请号:CN202010869967.9
申请日:2020-08-26
申请人: 浙江工业大学
摘要: 一种基于动态阈值的迭代式知识图谱实体对齐方法,本发明联合采用翻译模型和图卷积模型,分别自动学习关系语义信息以及实体的结构信息,并通过引入注意力机制减少不重要的邻节点带来的噪音,得到节点和关系的嵌入式表示;通过预对齐实体对集合,根据对齐的损失函数将两个知识图谱的实体映射到同一个向量空间当中;通过所设计的迭代对齐策略捕获可能的实体对,将这些实体对加入到训练集当中,参与到下一轮训练,直至实体的嵌入收敛,得到最终的实体嵌入,然后计算实体的相似度将实体进行对齐。本发明提出的迭代式知识图谱对齐方法减少了对人工标注实体数量的依赖,提高了实体对齐的准确率。
-
公开(公告)号:CN111274327A
公开(公告)日:2020-06-12
申请号:CN202010021995.5
申请日:2020-01-09
申请人: 浙江工业大学
摘要: 一种面向非结构化表格文档的实体与关系抽取方法,将非结构化表格文档划分为离散的单值表格和多值表格;采用表格位置特征和文本规则从单值表格中抽取出知识,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式;利用表格位置和文本规则从多值表格中抽取出知识,对字符串进行语义分割,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式。本发明给出的实体与关系抽取方法能够将非结构化表格文档的信息处理成结构化数据,并准确的抽取出其中的实体、关系、属性及属性值,形成三元组集合,为进一步构建知识图谱的工作奠定了良好的基础。
-
-
-
-
-
-
-
-
-