-
公开(公告)号:CN113761215A
公开(公告)日:2021-12-07
申请号:CN202110321491.X
申请日:2021-03-25
申请人: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
发明人: 赵忠华 , 李建广 , 余智华 , 王禄恒 , 陈欣洁 , 赵志云 , 冯凯 , 葛自发 , 杜漫 , 孙小宁 , 穆庆伟 , 万欣欣 , 申双成 , 李欣 , 孙立远 , 付培国 , 王晴 , 杜宛真
IPC分类号: G06F16/36 , G06F16/35 , G06F40/242 , G06F40/295
摘要: 本发明公开了一种基于反馈自学习的动态字典库生成方法,包括以下步骤:S1、字典库定义;S2、基于字典库分类体系;S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型;S5、将S4步生成的预测数据回填到字典库。有益效果:该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
-
公开(公告)号:CN111353300B
公开(公告)日:2023-09-01
申请号:CN202010093817.3
申请日:2020-02-14
申请人: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F40/284 , G06F40/289 , G06F18/214 , G06F18/241
摘要: 本发明提供了一种数据集构建方法及装置,包括步骤:数据采集,获取来自互联网数据源的第一数据,所述第一数据包括自然语言,所述第一数据经过预处理后,生成第二数据;数据特征分析,所述第二数据包括子数据,所述子数据包括第一特征数据,分析所述第一特征数据,得出所述第一特征数据的特征度;数据标签建立,根据所述第一特征数据的特征度确定所述子数据标签;数据分类存储,根据所述子数据标签将所述子数据分类保存,保存为数据集。实时采集互联网中的数据;根据特征数据和特征度提取对应的标签;通过所述子数据标签将所述子数据进行分类提高提取速度,提高工作效率。本发明提供了一种相关信息获取方法及装置,提高准确性,提高工作效率。
-
公开(公告)号:CN111353300A
公开(公告)日:2020-06-30
申请号:CN202010093817.3
申请日:2020-02-14
申请人: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F40/284 , G06F40/289 , G06K9/62
摘要: 本发明提供了一种数据集构建方法及装置,包括步骤:数据采集,获取来自互联网数据源的第一数据,所述第一数据包括自然语言,所述第一数据经过预处理后,生成第二数据;数据特征分析,所述第二数据包括子数据,所述子数据包括第一特征数据,分析所述第一特征数据,得出所述第一特征数据的特征度;数据标签建立,根据所述第一特征数据的特征度确定所述子数据标签;数据分类存储,根据所述子数据标签将所述子数据分类保存,保存为数据集。实时采集互联网中的数据;根据特征数据和特征度提取对应的标签;通过所述子数据标签将所述子数据进行分类提高提取速度,提高工作效率。本发明提供了一种相关信息获取方法及装置,提高准确性,提高工作效率。
-
公开(公告)号:CN117520570A
公开(公告)日:2024-02-06
申请号:CN202310693072.8
申请日:2023-06-12
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/38 , G06F16/25 , G06N3/0442 , G06N3/0464 , G06N3/048 , G06F18/241
摘要: 本发明公开了一种面向政策文件的智能文本辅助处理系统,属于信息管理领域,具体包括:采集层,数据层,处理层和应用层;所述采集层基于雷达采集软件、python技术以及大数据中心数据推送的方式对政策文件的相关信息进行获取;数据层通过ETL技术将数据载入至数据库;处理层对数据进行清洗加工和智能分析,供应用层使用;应用层实现信息可视化展示、快速检索、自动分类、多语言翻译、引用规范化和语音转写等。本发明具有高效性和易用性,在信息系统管理等领域有重要应用价值。
-
公开(公告)号:CN111930957A
公开(公告)日:2020-11-13
申请号:CN202010598739.2
申请日:2020-06-28
申请人: 国家计算机网络与信息安全管理中心
摘要: 本发明实施例公开了实体间亲密度的分析方法、装置、电子设备以及存储介质。所述方法包括:获取知识图谱中的多个实体以及所述多个实体之间的关系;根据所述多个实体中两个实体与所述多个实体中的其他实体之间的关系,确定所述两个实体之间的关系关联度;根据所述两个实体之间的关系关联度,确定所述两个实体之间的亲密度。基于该方法和装置,可以从实体间关系维度对实体间亲密度的分析,提高了实体间亲密度分析的全面性。
-
公开(公告)号:CN111861144A
公开(公告)日:2020-10-30
申请号:CN202010605353.X
申请日:2020-06-29
申请人: 国家计算机网络与信息安全管理中心
摘要: 本发明公开了面向多维指标分析的评估方法,包括:获取预定地区的产业发展相关指标的数据,所述产业发展相关指标至少包括产业指标、科研机构指标及政策法规指标;对所述产业发展相关指标的数据执行无量纲化处理;根据无量纲化处理得到的数据,计算所述产业发展相关指标的熵值,根据所述熵值计算所述产业发展相关指标的权值;根据无量纲化处理得到的数据和权值,评估预定地区的产业发展。本发明还提供了面向多维指标分析的评估装置。本发明通过对多个角度的指标数据信息进行获取和计算,实现了全方面、多维度、快速评估。
-
公开(公告)号:CN111488424A
公开(公告)日:2020-08-04
申请号:CN202010230061.2
申请日:2020-03-27
申请人: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/31 , G06F16/38 , G06F16/951 , G06F16/955 , G06F40/14
摘要: 本发明提出一种特定学术领域人物的发现与跟踪方法,包括:发现步骤,以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;更新步骤,以该作者信息和该论文信息,更新或加入特定学术领域数据库。
-
公开(公告)号:CN111461348A
公开(公告)日:2020-07-28
申请号:CN202010264622.0
申请日:2020-04-07
申请人: 国家计算机网络与信息安全管理中心
摘要: 本发明涉及一种基于图核的深度网络嵌入学习模型,包括构造节点的子结构集合、生成子结构的特征向量、在多个重构核希尔伯特空间上近似特征向量、设计基于图核的深度卷积模型、提出一种挖掘潜在社区信息的优化方法5个部分;本发明综合利用了社交网络分析、图算法分析、机器学习等技术,为网络的节点生成高质量表征向量,进而基于该向量可进行其他应用的研究,对进一步研究社交网络的特性和挖掘相关信息提供了关键基础。
-
公开(公告)号:CN112214558B
公开(公告)日:2023-08-15
申请号:CN202011296138.2
申请日:2020-11-18
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/28 , G06F16/33 , G06F16/951 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/08
摘要: 本申请提供了一种主题相关度判别方法及装置,方法包括:对获取的网页构建网页特征向量;利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算;筛选出相似度高于预设值的网页特征向量。本申请结合了语义向量相似度计算和机器学习方法的优点,相比于现有技术,可以实现较高的判别精度,并且本申请在训练样本的筛选上也作出了不同于现有技术的改进。
-
公开(公告)号:CN110134876B
公开(公告)日:2021-10-26
申请号:CN201910360276.3
申请日:2019-04-30
申请人: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC分类号: G06F16/9536 , G06F16/35 , G06Q50/00
摘要: 本发明公开了一种基于群智传感器的网络空间群体性事件感知与检测方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;步骤三、对传感器账号的微博数据进行去噪处理;步骤四、对去噪后的微博数据按评论转发数进行排序;步骤五、对排序后的微博数据进行去重处理;步骤六、识别出相关事件涉及的时间地点和人物;步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。本发明通过筛选具有影响力的媒体和用户账号组成群智传感器网络对网络空间群体性事件进行感知,无需对大规模微博数据进行挖掘,有效节省了计算和时间成本。
-
-
-
-
-
-
-
-
-