一种基于持续学习的小样本事件检测方法和系统

    公开(公告)号:CN116542320A

    公开(公告)日:2023-08-04

    申请号:CN202310506290.6

    申请日:2023-05-06

    发明人: 张伟文 许绵深

    IPC分类号: G06N3/096 G06N3/045 G06N3/09

    摘要: 本发明提供一种基于持续学习的小样本事件检测方法和系统,方法包括:获取事件检测初始数据集并进行预处理,根据预处理后的事件检测初始数据集建立包括若干个阶段的小样本事件检测增量任务集合,建立基于持续学习的小样本事件检测框架,在面对相继到来的新任务的持续学习时,首先学习新类型的原型表示并保存为新类型知识,然后通过经验回放机制、知识蒸馏和旧类型与新类型之间的知识转移来获得新类型的事件检测结果,本发明的方法能够解决传统模型的遗忘问题,同时丰富新类型和旧类型之间的联系,提高事件检测的效率和精度。

    一种船舶新闻推送模型的训练方法、推送方法及系统

    公开(公告)号:CN116127321A

    公开(公告)日:2023-05-16

    申请号:CN202310133118.0

    申请日:2023-02-16

    摘要: 本发明公开了一种船舶新闻推送模型的训练方法、推送方法及系统,其中,训练方法包括获取船舶新闻数据集;对所述船舶新闻数据集进行新闻文本得分计算处理,得到训练数据集,所述训练数据集由多个新闻本文及与所述新闻本文相对应的新闻文本得分组成;对所述训练数据集输入船舶新闻推送模型进行训练处理,得到训练好的船舶新闻推送模型。本发明实施例能够通过使用船舶新闻推送模型解决初次阅读船舶新闻时候难以推送恰当新闻的难点,提高了船舶新闻推送的效率,可广泛应用于人工智能技术领域。

    一种融合信息获取和三元组抽取的知识图谱构建方法

    公开(公告)号:CN114328951A

    公开(公告)日:2022-04-12

    申请号:CN202111538747.9

    申请日:2021-12-15

    摘要: 本发明涉及一种融合信息获取和三元组抽取的知识图谱构建方法,包括以下步骤:S1:定时利用爬虫技术从指定的网页中爬取海洋相关的包括新闻在内的文本内容;S2:利用自然语言处理工具对文本内容进行实体抽取及关系抽取,得到新闻的三元组,之后将新闻的三元组存储进数据库中;S3:根据数据库中的三元组构建知识图谱,并在数据浏览器中实现知识图谱的可视化;S4:根据可视化的知识图谱获取知识的关联。上述方案中,融合了信息获取和三元组抽取来构建知识图谱,将整个流程构建成为一个端到端的任务,减少用户使用成本;构建出海洋知识图谱,进而从零散数据中发现知识,挖掘事物的关联性,帮助组织机构做出指导性的决策。

    一种知识图谱的文本生成方法及装置

    公开(公告)号:CN113312919A

    公开(公告)日:2021-08-27

    申请号:CN202110662942.6

    申请日:2021-06-15

    IPC分类号: G06F40/295 G06N3/04

    摘要: 本申请公开了一种知识图谱的文本生成方法及装置,方法包括:将预置知识图谱三元组基于重构算法转换为三元组序列,三元组序列包括索引和标签;基于预置堆叠GCN编码器对三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量;通过预置LSTM解码器对编码特征向量进行解码,得到文本特征向量,预置LSTM解码器包括上下文门控机制和注意力机制;根据预置复制注意力机制对文本特征向量进行单词生成操作,得到文本单词;采用预置波束搜索算法将文本单词以最佳序列生成文本语句,预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚。本申请解决了现有技术易出现OOV问题,以及生成句子不忠于原输入的情况,导致生成的文本语句质量较差的技术问题。

    一种边缘服务器的任务量预测方法

    公开(公告)号:CN112667912A

    公开(公告)日:2021-04-16

    申请号:CN202110051087.5

    申请日:2021-01-14

    IPC分类号: G06F16/9535 G06N3/04 G06N3/08

    摘要: 本发明提供了一种边缘服务器的任务量预测方法,首先收集各个边缘服务器的使用率数据;将数据进行归一化处理后的输入到Savitzky‑Golay滤波器进行平滑处理后将数据集划分为训练集、验证集和测试集;建立包含一维卷积层、双向长短期循环网络和注意力机制层的预测模型并对改预测模型进行训练,将测试集输入训练好的预测模型中得出预测结果从而对边缘服务器进行配置。本发明能够在满足预测准确的基础上,大幅度降低训练和预测的时间。

    一种钢板缺陷采样方法
    6.
    发明公开

    公开(公告)号:CN112200261A

    公开(公告)日:2021-01-08

    申请号:CN202011124044.7

    申请日:2020-10-20

    IPC分类号: G06K9/62

    摘要: 本申请公开了一种钢板缺陷采样方法,包括:将故障类钢板样本按标签分类成不同集合;从样本的特征中选择若干个强相关的特征进行特征交叉,生成更具代表性的特征;将集合内所有钢板特征样本点按特征取平均值得到该集合的中心点;计算中心点到集合内所有点的Wasserstein距离,并根据Wasserstein距离将样本进行排序;将排序后的集合均分为k个子集;从每个子集中分别随机选取一个样本点,对选取的样本点对应的特征求平均,从而生成的新样本点;令新生成的样本轮流与其中k‑1个父母样本按照生成方法再生成新样本;直到该标签样本数与合格样本数数量相等。本申请解决了采样过程会丢失部分数据信息,以及生成新的故障类样本难以达到数据集均衡的技术问题。

    一种远程监督事件抽取方法及其应用

    公开(公告)号:CN112052665A

    公开(公告)日:2020-12-08

    申请号:CN202010956662.1

    申请日:2020-09-12

    摘要: 本发明公开了一种远程监督事件抽取方法及其应用,其中所述抽取方法包括:构建待抽取信息的触发词林;构建待抽取信息的知识库;构建待抽取信息的事件数据集;通过神经网络模型进行事件抽取。本发明的抽取方法可对离散化的、碎片化的、和/或无法经过直接的句子抽取获得事件信息的信息进行准确高效的抽取,特别适用于对剧本类信息的事件抽取中。

    文本数据增强方法及知识元抽取方法

    公开(公告)号:CN111950264A

    公开(公告)日:2020-11-17

    申请号:CN202010777706.4

    申请日:2020-08-05

    摘要: 本发明公开了一种文本数据增强方法及知识元抽取方法,其中所述文本数据增强方法包括自第一补充数据库和第二补充数据库中筛选相似文本的过程,其中所述第一补充数据库源自与基础数据集相近领域的知识库,所述第二补充数据库源自基础数据集中实体词语的同义词。本发明的数据增强方法可对来源较少的基础数据产生高效、大量的补充,基于该增强方法增强后的数据集完成训练的知识元抽取模型具有较高的泛化能力和抽取准确性。