容量和价值约束的数据压缩处理方法、装置及存储介质

    公开(公告)号:CN114547027B

    公开(公告)日:2023-01-31

    申请号:CN202210127570.1

    申请日:2022-02-11

    申请人: 清华大学

    发明人: 王建民 朱妤晴

    摘要: 本申请提供一种容量和价值约束的数据压缩处理方法、装置及存储介质,涉及数据处理技术,包括:获取多个待压缩数据块、与多个待压缩数据块对应的总原始数据块的第一块数、及压缩倍数值;根据第一块数、压缩倍数值、以及预设的衰减函数,确定压缩数据块对应的压缩队列;压缩队列中包括多个子压缩倍数值,每一子压缩倍数值与至少一个待压缩数据块对应,衰减函数是根据待压缩数据块的价值信息确定的;根据预设的压缩算法和子压缩倍数值,对与子压缩倍数值对应的至少一个待压缩数据块进行压缩处理,得到目标数据块;删除与目标数据块对应的待压缩数据块。本申请解决了有限存储空间内存储的时间序列数据的有效信息量较少的技术问题。

    基于遗传算法的临床路径本地化的方法和装置

    公开(公告)号:CN110957013B

    公开(公告)日:2022-09-23

    申请号:CN201811132323.0

    申请日:2018-09-27

    申请人: 清华大学

    摘要: 本发明实施例提供基于遗传算法的临床路径本地化的方法和装置。其中,方法包括:建立指定疾病的国家标准临床路径的电子化模型,并根据电子化模型,获取各阶段的重点医嘱项目;根据患有指定疾病且已治愈的患者的病历,获取收费项目;根据遗传算法,获取各阶段的重点医嘱项目与收费项目之间的映射关系;根据映射关系,生成本地化临床路径。本发明实施例提供的基于遗传算法的临床路径本地化的方法和装置,根据国家标准临床路径电子化模型,根据遗传算法,获取各阶段的重点医嘱项目与收费项目之间的映射关系,根据映射关系能生成准确度高、通用性强的本地化临床路径,能够有效地辅助我国医疗机构进行本地化临床路径的制定。

    设备监测方法、装置及设备
    15.
    发明公开

    公开(公告)号:CN114997431A

    公开(公告)日:2022-09-02

    申请号:CN202210521103.7

    申请日:2022-05-13

    IPC分类号: G06Q10/00

    摘要: 本申请实施例提供一种设备监测方法、装置及设备。该方法包括:获取待监测设备在多个时刻的多组第一设备参数,每组第一设备参数包括多种类型的设备参数;对所述多组第一设备参数进行分解处理,得到多个第一设备参数序列,一个所述第一设备参数序列中包括一种类型的设备参数;对所述多个第一设备参数序列进行谱残差处理,以得到所述多个第一设备参数序列对应的目标谱信息;根据所述目标谱信息确定异常数据,并根据所述异常数据,确定所述待监测设备对应的监测结果。提高了设备监测的准确性。

    肝细胞癌远期预后预测的建模方法及装置

    公开(公告)号:CN113571194B

    公开(公告)日:2022-05-13

    申请号:CN202110777887.5

    申请日:2021-07-09

    申请人: 清华大学

    IPC分类号: G16H50/50 G16H50/70

    摘要: 本发明提供一种肝细胞癌远期预后预测的建模方法和装置,其中,方法包括:获取肝细胞癌病例资料;对所述病例资料进行标准化处理,得到标准化的病例资料;对所述标准化的病例资料进行处理,得到肝细胞癌影像组学特征;对所述影像组学特征进行筛选,得到用于肝细胞癌远期预后预测的模型建构的特征;基于所述用于肝细胞癌远期预后预测的模型建构的特征建构肝细胞癌远期预后的预测模型。本发明根据肝细胞癌远期预后对术后影像特征进行筛选,将筛选出的特征建立预后模型,从而实现肝细胞癌远期预后的精准预测和提前进行治疗干预,对肝细胞癌远期预后预测提供全流程影像数据的支撑。

    一种实时更正数据的存储与缓存读取方法

    公开(公告)号:CN106951490B

    公开(公告)日:2020-09-18

    申请号:CN201710149222.3

    申请日:2017-03-14

    申请人: 清华大学

    摘要: 本发明涉及一种大规模实时更正数据的存储与缓存读取方法,属于计算机数据管理技术领域。本发明面向工业物联网、气象信息网中出现的一类重要的实时更正数据,数据读取以按时间维度的批量读取为主,数据量大且需要进行实时更正。本发明方法实现数据存储、数据直接读取与数据缓存读取,既能快速返回数据,又支持更正数据的实时更新,并通过缓存提升用户获取速度的时间。本发明克服了目前的分布式系统中广泛存在的大规模实时更正数据存储和读取性能无法达到要求的难题,方法直观有效、便于使用。

    一种分布式多维离散数据的计算方法

    公开(公告)号:CN106980540B

    公开(公告)日:2020-07-10

    申请号:CN201710134803.X

    申请日:2017-03-07

    申请人: 清华大学

    IPC分类号: G06F9/50

    摘要: 本发明涉及一种分布式多维离散数据的计算方法,属于计算机数据处理技术领域。该方法首先调用分布式存储系统的服务接口获取元数据并解析得到哈希范围到主机的映射关系,其次对存储系统中所有数据的主键根据主键到哈希码的映射关系和哈希范围到主机的映射关系得到每条数据的主键对应的主机,最终分布式计算系统在分配任务时根据数据的主键所在的主机分配任务。特别地,本文详细描述了多维离散数据在分布式计算系统Spark和分布式存储系统Cassandra间的跨层优化。本发明能够有效地达到任务本地化计算的目的,方法直观有效、便于使用。

    一种近似分位数计算方法及装置

    公开(公告)号:CN110968835A

    公开(公告)日:2020-04-07

    申请号:CN201911275488.8

    申请日:2019-12-12

    申请人: 清华大学

    IPC分类号: G06F17/17 G06F17/18

    摘要: 本发明实施例提供一种近似分位数计算方法及装置,该方法包括:依次读取互联网流式数据集中的各个数据信息,更新等深直方图信息,直至读取所述互联网流式数据集中所有数据,得到目标等深直方图信息;根据分位度信息确定近似分位数在所述目标等深直方图信息中的间隔信息,得到所述互联网流式数据集的近似分位数。通过运用动态等深直方图,在流式计算场景中动态地维护一个近似等深直方图,最终得到目标等深直方图,根据目标值等深直方图的维护结果得到该流式数据集的近似分位数,利用等深直方图的性质,高效地完成针对任意规模的流式数据的近似分位数计算。