-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC分类号: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
摘要: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN115460061A
公开(公告)日:2022-12-09
申请号:CN202210926827.X
申请日:2022-08-03
申请人: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: H04L41/0631 , H04L41/08 , H04L41/0803 , H04L41/14 , H04L43/0823 , H04L43/50
摘要: 本发明公开了一种基于智能运维场景的健康度评价方法及装置。所述方法包括:收集运维系统的日志数据和配置数据;对所述日志数据和所述配置数据进行预处理,以构建业务关键信息数据库;基于配置id在各设定时间间隔中的数据与标签,分别训练向量自回归模型与LSTM‑AE模型,以获取每一配置id在预测时间的向量自回归模型异常分数和LSTM‑AE模型异常分数;综合所述配置id在预测时间的向量自回归模型异常分数和LSTM‑AE模型异常分数,得到所述配置id在预测时间的异常分数;基于各配置id在预测时间的异常分数,计算所述运维系统在预测时间的健康度。本发明实现了对于智能运维场景的健康度评估。
-
公开(公告)号:CN115460061B
公开(公告)日:2024-04-30
申请号:CN202210926827.X
申请日:2022-08-03
申请人: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: H04L41/0631 , H04L41/08 , H04L41/0803 , H04L41/14 , H04L43/0823 , H04L43/50
摘要: 本发明公开了一种基于智能运维场景的健康度评价方法及装置。所述方法包括:收集运维系统的日志数据和配置数据;对所述日志数据和所述配置数据进行预处理,以构建业务关键信息数据库;基于配置id在各设定时间间隔中的数据与标签,分别训练向量自回归模型与LSTM‑AE模型,以获取每一配置id在预测时间的向量自回归模型异常分数和LSTM‑AE模型异常分数;综合所述配置id在预测时间的向量自回归模型异常分数和LSTM‑AE模型异常分数,得到所述配置id在预测时间的异常分数;基于各配置id在预测时间的异常分数,计算所述运维系统在预测时间的健康度。本发明实现了对于智能运维场景的健康度评估。
-
公开(公告)号:CN115858798A
公开(公告)日:2023-03-28
申请号:CN202210651618.9
申请日:2022-06-09
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC分类号: G06F16/36 , G06F40/295 , G06F40/30
摘要: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN115114427A
公开(公告)日:2022-09-27
申请号:CN202210279929.7
申请日:2022-03-21
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
摘要: 本发明公开一种基于预训练和多任务学习的文本摘要和关键词抽取方法,属于文本信息抽取领域,基于预训练语言模型在抽取任务上进行针对性的进一步微调,并在关键词抽取任务与摘要抽取任务的协作下用于抽取关键词和摘要。本发明能够解决现有文本关键词抽取和摘要抽取技术存在的准确率和召回率低的问题。
-
公开(公告)号:CN115269833A
公开(公告)日:2022-11-01
申请号:CN202210760202.0
申请日:2022-06-29
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC分类号: G06F16/35 , G06F40/194 , G06K9/62
摘要: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN116702094B
公开(公告)日:2023-12-22
申请号:CN202310957274.9
申请日:2023-08-01
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F18/26 , G06F18/25 , G06F18/213 , G06F18/22 , G06F18/27 , G06N3/045 , G06N3/044 , G06N3/0442 , G06N3/0464 , G06N3/08
摘要: 本发明涉及数据处理技术领域,提供一种群体应用偏好特征表示方法,其中方法包括:获取用户的交互数据;基于多模态预训练模型,提取所述交互数据的特征表示;基于所述交互数据的特征表示,确定所述交互数据的群体应用偏好特征;基于所述群体应用偏好特征,对所述用户进行画像。本发明提供的群体应用偏好特征表示方法,能够自适应的针对任意的纯文本数据、纯图像数据、图文混合数据提取联合特征,实现对多模态数据的分析处理,在图文模态下,可以增加特征提取的语义交互能力,使得到的群体应用偏好特征更准确,从而提高用户画像的质量。
-
公开(公告)号:CN117234572A
公开(公告)日:2023-12-15
申请号:CN202310892421.9
申请日:2023-07-20
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F8/70 , G06F8/71 , G06F8/74 , G06N3/0464 , G06N3/08
摘要: 本发明涉及多模态数据提取技术领域,尤其为一种基于游戏引擎的多模态数据提取方法,包括如下步骤包括如下步骤:S1:通过对游戏文件逆向,获得游戏的资源文件;S2:通过对资源文件引擎特征提取,获得游戏资源文件中的游戏引擎;S3:通过对游戏资源文件中的游戏引擎进行特征融合获得融合特征进行多模态数据提取。本发明通过逆向手段分析游戏引擎,从游戏引擎对资源文件打包开始,深入研究打包流程和打包过程中使用的技术,无需运行游戏,直接从游戏安装路径下对资源文件提取,减少了资源浪费问题。
-
公开(公告)号:CN105069169B
公开(公告)日:2019-03-05
申请号:CN201510547203.7
申请日:2015-08-31
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/958
摘要: 本发明提出了一种网站镜像的检测方法及装置。所述检测方法包括:计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站;比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站,在保证检测准确性的同时,提高网站镜像检测的效率。
-
公开(公告)号:CN108959351A
公开(公告)日:2018-12-07
申请号:CN201810377825.3
申请日:2018-04-25
申请人: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
CPC分类号: G06F17/2785 , G06N3/0481
摘要: 本发明属于自然语言处理技术领域,具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示,得到第一句对分布式表示向量;计算记忆单元与第一句对分布式表示向量的相似度和权重,得到第一句对分布式表示向量的记忆信息;将第一句对分布式表示向量与记忆信息进行线性组合生成第二句对分布式表示向量;对第二句对分布式表示向量进行分类,得到中文篇章的关系分类结果。本发明的方法通过深度学习网络得到句子内部的语义和结构抽象特征,可以获得优越性能的篇章分类效果。
-
-
-
-
-
-
-
-
-