-
公开(公告)号:CN115712625A
公开(公告)日:2023-02-24
申请号:CN202211485312.7
申请日:2022-11-24
申请人: 哈尔滨工业大学
IPC分类号: G06F16/22 , G06F16/2457 , G06F18/214 , G06N20/00
摘要: 一种自动学习索引方法及系统,具体涉及一种根据计算机数据特征自动推荐最佳索引的方法及系统,为了解决计算机的学习索引在建立时,需要人为定义学习索引的层数以及每个节点相应的模型,导致索引建立的空间代价较大,建立过程难度较高,建立时间较长的问题,它包括构建学习索引模型,学习索引模型包括回归模型和随机森林模型,利用计算机数据库作为训练集对学习索引模型进行训练,输入训练数据的键key,输出训练数据在计算机数据库中的位置。属于数据库索引领域。
-
公开(公告)号:CN114665885B
公开(公告)日:2022-11-04
申请号:CN202210330862.5
申请日:2022-03-29
申请人: 北京诺司时空科技有限公司 , 哈尔滨工业大学
摘要: 一种时序数据库自适应数据压缩方法,涉及数据压缩领域。本发明是为了解决目前时序数据压缩方法还存在无法对时序数据的特征和模式自适应压缩以及压缩率低造成内存空间浪费的问题。本发明包括:获取时序数据中的时间戳和Field Value;获取待压缩的时间戳每个时间点的delta‑of‑delta值;根据每个时间点的delta‑of‑delta值进行压缩获得每个时间点的压缩结果;以时间戳每个时间点为间隔将Field Value分为Field Value数据段,利用时间戳时间点的delta‑of‑delta值对Field Value数据段划分,获得Field Value数据小段;将Field Value数据小段输入训练好的神经网络分类器中,获得Field Value数据小段压缩结果;将时间戳压缩结果和Field Value压缩结果存储到内存中,获得时间序列数据压缩结果。本发明用于时序数据的压缩。
-
公开(公告)号:CN114679184B
公开(公告)日:2022-11-01
申请号:CN202210373970.0
申请日:2022-04-11
申请人: 哈尔滨工业大学 , 北京诺司时空科技有限公司
摘要: 一种时序数据库的数据压缩方法及系统,具体涉及一种时序数据库内的数据压缩方法及系统,本发明为解决时序数据库中压缩算法效率低的问题,利用时序数据库的压缩算法提取原始时序数据,原始时序数据包括整型数据和浮点数据;计算整型数据的delta数组;建立回归模型,设置权重因子为10,将delta数组输入回归模型内进行训练,得到训练好的回归模型;再将delta数组输入训练好的回归模型内,得到整型数据数值预测值;将整型数据数值预测值与真实值作差,得到误差结果;采用ZigZag变换对误差结果进行变换,并利用哈夫曼编码将变换后的误差结果进行保存;对浮点数据进行精度缩减,并采用异或运算进行压缩。属于计算机技术领域。
-
公开(公告)号:CN115169327A
公开(公告)日:2022-10-11
申请号:CN202210897321.0
申请日:2022-07-28
申请人: 哈尔滨工业大学
IPC分类号: G06F40/211 , G06F40/216 , G06N20/00
摘要: 基于自动机器学习技术的摘要生成系统及方法,具体涉及利用自动机器学习技术自动生成文本摘要的系统及方法,为解决摘要生成方法不能同时兼顾摘要的有效性和时效性,也不能针对文本的各种特征属性自动选择效果好的摘要方法,导致摘要内容好坏不定的问题,系统依次包括获取模块、生成模块、输出模块;生成模块依次包括分句模块、清洗模块、词嵌入模块、句子嵌入模块、摘要句评定模块。方法先获取文本集及对应的摘要;建立自动机器学习模型,将文本集输入自动机器学习模型内利用自动机器学习技术进行训练,输出所述每个文本的摘要,得到训练好的模型;将待生成摘要的文本输入训练好的自动机器学习模型内,输出所述文本的摘要。属于摘要生成领域。
-
公开(公告)号:CN114911823A
公开(公告)日:2022-08-16
申请号:CN202210319734.0
申请日:2022-03-29
申请人: 哈尔滨工业大学
IPC分类号: G06F16/2453 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 面向云边端协同查询的深度学习代价估计系统、方法及设备,属于计算机技术领域。为了解决于目前还没有一种针对云、边、端三种设备联合查询优化的方法的问题。本发明所述系统中以云边端系统的系统节点元信息和协同查询计划树确定面向云边端协同查询的深度学习代价估计模型的模型输入,代价估计模型根据模型输入进行代价估计;代价估计模型采用残差连接的m个树卷积模块,对协同查询计划树编码进行特征融合和特征提取,进而得到针对每个云/边/端节点的查询计划特征;然后使用GCN和树卷积高效融合了查询特征和云边端数据库系统特征,实现了对云边端数据库的准确代价估计。本发明主要用于面向云边端协同查询的深度学习代价估计。
-
公开(公告)号:CN114897140A
公开(公告)日:2022-08-12
申请号:CN202210499086.1
申请日:2022-05-09
申请人: 哈尔滨工业大学
摘要: 一种基于因果干预的反事实生成方法,涉及机器学习技术领域,针对现有反事实生成方法中每个新的实例都需要重新解决一个特定的优化问题,进而导致反事实生成效率低的技术问题,本申请通过对反事实因果干预的分析,为生成过程提供因果角度的理论保证;并适当地将模型偏差与属性之间的因果关系结合起来,以确保反事实解释的可行性;使用生成对抗网络与因果干预相结合,克服了原有方法针对一项实例就需要解决一个特定优化问题导致生成效率低下的难点,提高了反事实生成的效率。
-
公开(公告)号:CN114679184A
公开(公告)日:2022-06-28
申请号:CN202210373970.0
申请日:2022-04-11
申请人: 哈尔滨工业大学 , 北京诺司时空科技有限公司
摘要: 一种时序数据库的数据压缩方法及系统,具体涉及一种时序数据库内的数据压缩方法及系统,本发明为解决时序数据库中压缩算法效率低的问题,利用时序数据库的压缩算法提取原始时序数据,原始时序数据包括整型数据和浮点数据;计算整型数据的delta数组;建立回归模型,设置权重因子为10,将delta数组输入回归模型内进行训练,得到训练好的回归模型;再将delta数组输入训练好的回归模型内,得到整型数据数值预测值;将整型数据数值预测值与真实值作差,得到误差结果;采用ZigZag变换对误差结果进行变换,并利用哈夫曼编码将变换后的误差结果进行保存;对浮点数据进行精度缩减,并采用异或运算进行压缩。属于计算机技术领域。
-
公开(公告)号:CN114637775A
公开(公告)日:2022-06-17
申请号:CN202210319758.6
申请日:2022-03-29
申请人: 哈尔滨工业大学
IPC分类号: G06F16/2453 , G06N5/00 , G06N7/00 , G06N3/08
摘要: 基于蒙特卡洛树搜索和强化学习的查询优化系统、方法及设备,属于计算机技术领域。为了解决现有的NEO查询优化方法存在兼容性弱和稳定性差的问题,本发明的系统采用与NEO查询优化模型相同的框架,其中价值模型单元:基于价值模型利用查询计划对应的特征预测查询计划的开销;价值模型为神经网络模型;价值模型的输入为一棵向量树,用于表示需要估计开销的查询计划,向量树的拓扑结构为二叉树结构,各节点编码按照树的层序遍历顺序依次拼接;节点的节点特征由节点信息的编码组成;查询计划搜索单元采用蒙特卡洛树搜索方法,根据查询计划‑>时间开销的预测做查询计划搜索,从搜索空间中生成一个执行计划。主要用于计算机中的查询优化。
-
公开(公告)号:CN109284352B
公开(公告)日:2022-02-08
申请号:CN201811153438.8
申请日:2018-09-30
申请人: 哈尔滨工业大学
IPC分类号: G06F16/31 , G06F40/289 , G06F40/242
摘要: 一种基于倒排索引的评估类文档不定长词句的查询方法,它涉及数据科学领域的索引方法以及NLP领域的分词方法,解决了评估类文档不定长词句的查询问题。本发明的步骤为:一、对待查询文档进行数据预处理,利用jieba分词方法进行分词处理,得到单词词典与词频信息;二、基于完全重建策略的倒排索引原理建立自适应倒排表;三、结合待查找不定长词句的信息,通过自适应倒排表索引词句中各个单词位置信息,识别不定长词句位置信息并索引其所在段落,来完成评估类文档不定长词句的查询功能。本发明的基本思想是对文本数据进行分词,建立倒排索引,进而实现快速搜索不定长词句,从而实现对评估类文档的查询功能。应用场景广泛,因而具有很高的社会经济价值。
-
公开(公告)号:CN109033314B
公开(公告)日:2020-10-23
申请号:CN201810787762.9
申请日:2018-07-18
申请人: 哈尔滨工业大学
IPC分类号: G06F16/36 , G06F16/332 , G06F16/33 , G06F40/284 , G06F16/31
摘要: 本发明涉及数据处理技术领域,提供了一种内存受限情况下的大规模知识图谱的实时查询方法及系统,该方法包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。本发明大大的提高了单机知识图谱查询能力,能够在内存极度受限的情况下给出既满足用户时间需求又满足用户精度需求的结果集。
-
-
-
-
-
-
-
-
-