一种基于问答式系统的篇章级核心事件抽取方法

    公开(公告)号:CN113836269B

    公开(公告)日:2024-04-02

    申请号:CN202111133607.3

    申请日:2021-09-27

    申请人: 河海大学

    发明人: 王继民 韩斌 王飞

    摘要: 本发明公开了一种基于问答系统的篇章级核心事件抽取方法,包括如下步骤:使用现有的BiLSTM‑CRF模型对文章进行事件检测,设计问题模板构建问答系统的先验问题;跨句子构造待抽取文本,将触发词来源的事件句子和文档中的其余句子结合,以产生多个待抽取文本;构造问题,将问题与文本组合起来,从文本中找出问题的答案;基于BERT预训练模型和双向LSTM模型的问答系统对文档内事件元素进行提取;对事件进行共指融合,使用TextRank算法对同个文档内多个事件的重要性进行排序,从多个事件中选取核心事件。本发明通过基于问答系统的篇章级事件抽取方法可以提取出分布在不同句子中的事件元素,可以从多事件、无标题的文本中提取出核心事件,提高了核心事件抽取的效果。

    一种基于Spark的网格水文模型分布式计算方法

    公开(公告)号:CN112948123B

    公开(公告)日:2023-02-28

    申请号:CN202110330831.5

    申请日:2021-03-26

    申请人: 河海大学

    IPC分类号: G06F9/50 G06F9/48

    摘要: 本发明公开了一种基于Spark的网格水文模型分布式计算方法,步骤为:先对网格水文模型计算参数采用netCDF格式进行描述,再基于XML规范对网格水文模型构件及其依赖关系进行描述;然后采用Spark分布式计算模型对网格水文模型的构件进行调度和计算,最后对调度计算后各构件生成的结果进行输出。本发明定义了基于netCDF的模型参数以及模型计算结果描述格式,描述网格水文模型计算时使用到的流域特征、模型参数以及监测点和流域面上的水文数据;定义了基于XML的网格水文模型构件以及各构件之间的依赖关系描述规范;根据构件计算时网格之间的依赖关系,使用Hash分区法和动态数据分区法对网格进行任务划分,并分配到不同的节点进行计算,减少了数据分发量,提高计算速度。

    一种基于Matrix Profile的时间序列变长模体挖掘方法

    公开(公告)号:CN113128582B

    公开(公告)日:2022-09-02

    申请号:CN202110398267.0

    申请日:2021-04-14

    申请人: 河海大学

    IPC分类号: G06K9/62

    摘要: 本发明公开了一种基于MatrixProfile的时间序列变长模体挖掘方法,步骤为:1.弱标记片段提取:对时间序列分段加入弱标记,提取弱标记时间序列片段。2.长度为w的模体发现:2.1最小窗口值即w=2时片段内字典生成:以STAMP算法为子程序,找出候选子序列存入字典。2.2全局模体发现:将所有的弱标记时间序列片段连接形成新的时间序列,在新的时间序列上利用字典进行模体发现。2.3窗口值在指定窗口值内增加时,利用下界距离找出候选子序列存入字典,减少字典生成的工作量,重复全局模体发现步骤,完成模体发现。本发明不是在整个时间序列上进行模体发现,而是通过通过连接弱标记时间序列片段形成新的时间序列,从而缩短了模体搜索空间,进而提高了模体发现的效率。

    一种水利门户信息混合推荐方法

    公开(公告)号:CN110362740B

    公开(公告)日:2022-03-08

    申请号:CN201910496474.2

    申请日:2019-06-10

    申请人: 河海大学

    摘要: 本发明公开了一种水利门户信息混合推荐方法,步骤为:事先定义水利门户信息分类体系,然后利用网络爬虫从各大水利门户网站爬取水利门户信息,并按照水利门户信息分类进行手工标注,建立水利门户信息分类器,对推荐数据集中的大量水利门户信息进行自动分类;利用推荐数据集以及用户行为数据分别构建基于时空敏感的热点信息推荐模型、基于信息内容的推荐模型以及基于用户和信息类别的协同过滤推荐模型三种推荐模型,将三种模型按照一定比例线性混合为老用户推荐信息,用基于时空敏感的热点信息推荐模型为新用户推荐信息。本发明提高水利信息推荐的准确性和专业性,实现推荐技术在水利门户网站上的创新应用。

    一种基于数据增强的侵彻深度预测方法

    公开(公告)号:CN114036610A

    公开(公告)日:2022-02-11

    申请号:CN202111298466.0

    申请日:2021-11-04

    申请人: 河海大学

    摘要: 本发明公开了一种基于数据增强的侵彻深度预测方法,对预先获取的毁伤数据进行数据异常检测,将毁伤数据分成N个待增强参数区间,并选出少数样本区间;建立SMOTE数据增强方法对少数样本区间的样本进行数据增强;使用Tomeklinks技术对通过数据增强生成的样本进行数据清洗,并将清洗后的样本加入到原数据集中,构成新的扩充数据集;并对数据进行归一化处理;利用网格搜索和交叉验证方法选取最优模型参数,建立GS‑SVR模型;对实际的毁伤数据进行预测。本发明通过新增少数区间样本以规避数据量较少、存在异常值及样本不平衡带来的计算误差,提高模型整体的泛化性,更好地实现对侵彻深度值的预测。

    一种基于MITree的多维时间序列在线模体发现方法

    公开(公告)号:CN113902003A

    公开(公告)日:2022-01-07

    申请号:CN202111160315.9

    申请日:2021-09-30

    申请人: 河海大学

    IPC分类号: G06K9/62

    摘要: 本发明公开了一种基于多维实例树的多维时间序列在线模体发现方法,包括如下步骤:首先使用单维时间序列模体挖掘方法KMotif挖掘初始滑动窗口内所有维度包含的K‑模体;然后,基于预先定义的时间阈值,构造模体实例邻居;最后,构建维护全局模体实例信息的MITree结构;随着新数据的到达,增量更新MITree结构,实现在线挖掘多维模体。本发明通过构造MITree结构,利用前缀复用的树形数据结构的优势,每次只需要将基本窗口内的数据更新到树结构中,不需要重新对窗口内的所有数据重新建立树结构,节省了时间开销。本发明在线挖掘流时间序列中存在的多频率出现的时间近似的同步多维模体。

    一种城市街道垃圾检测和清洁度评估方法

    公开(公告)号:CN109165582B

    公开(公告)日:2021-09-24

    申请号:CN201810901959.0

    申请日:2018-08-09

    申请人: 河海大学

    摘要: 本发明公开了一种基于移动边缘计算和深度学习的城市街道垃圾检测和清洁度评估方法。这种方法主要通过安装在城市街道垃圾收集车上的高分辨率摄像机和手持的移动设备进行街景图象收集;利用边缘服务器临时存储并进行街景图象预处理;通过城市网络把这些数据传输到云中心,同时利用深度学习Faster‑Rcnn算法识别街道垃圾类别以及对垃圾数量计数,并且将这些结果引入到基于层次的街道清洁度评估框架当中,最终可视化街道清洁度等级;为城市市政管理者有效安排清理人员提供方便。

    一种基于Matrix Profile的时间序列变长模体挖掘方法

    公开(公告)号:CN113128582A

    公开(公告)日:2021-07-16

    申请号:CN202110398267.0

    申请日:2021-04-14

    申请人: 河海大学

    IPC分类号: G06K9/62

    摘要: 本发明公开了一种基于MatrixProfile的时间序列变长模体挖掘方法,步骤为:1.弱标记片段提取:对时间序列分段加入弱标记,提取弱标记时间序列片段。2.长度为w的模体发现:2.1最小窗口值即w=2时片段内字典生成:以STAMP算法为子程序,找出候选子序列存入字典。2.2全局模体发现:将所有的弱标记时间序列片段连接形成新的时间序列,在新的时间序列上利用字典进行模体发现。2.3窗口值在指定窗口值内增加时,利用下界距离找出候选子序列存入字典,减少字典生成的工作量,重复全局模体发现步骤,完成模体发现。本发明不是在整个时间序列上进行模体发现,而是通过通过连接弱标记时间序列片段形成新的时间序列,从而缩短了模体搜索空间,进而提高了模体发现的效率。