-
公开(公告)号:CN113221542A
公开(公告)日:2021-08-06
申请号:CN202110348599.8
申请日:2021-03-31
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
IPC: G06F40/232 , G06F40/242 , G06F40/284
Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。
-
公开(公告)号:CN116186191A
公开(公告)日:2023-05-30
申请号:CN202210320305.5
申请日:2022-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
Abstract: 本发明涉及基于多维信息的任务匹配方法,属于基于大数据智能分析与挖掘技术领域。本发明是结合文本处理、机器学习方法、线性模型、动态规划等方法对相应文本进行处理,从而对文本所含“价值”进行分析,并借助大数据的手段将人工主观文本分析变为自动化完成,提高系统找到匹配结果的效率。本发明采用多种大数据分析的思想和多路召回的思想,对于同一任务会召回多个表单,每一个表单进行同样的操作,设置不同的权重,最后多路交集,从而可以取到更加准确的筛选结果,大大提高了工作效率。
-
公开(公告)号:CN118657148A
公开(公告)日:2024-09-17
申请号:CN202410681340.9
申请日:2024-05-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/205 , G06F40/126 , G06F16/33
Abstract: 本发明提供一种实体关系抽取方法、装置、电子设备以及存储介质,涉及人工智能技术领域。实体关系抽取方法包括:利用注意力模型,处理待处理文本以及目标实体关系词,得到实体关系判别信息;利用实体关系判别信息,得到目标第一命名实体与候选第二命名实体在待处理文本中的第一关联度、目标第一命名实体与目标实体关系词在待处理文本中的第二关联度,以及候选第二命名实体与目标实体关系词在待处理文本中的第三关联度;响应于第一关联度、第二关联度以及第三关联度均大于各自对应的预设阈值,从待处理文本中抽取出目标第一命名实体和候选第二命名实体之间的待抽取的实体关系。本发明可以准确、高效地执行实体关系抽取任务。
-
公开(公告)号:CN118643380A
公开(公告)日:2024-09-13
申请号:CN202410654369.8
申请日:2024-05-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/241 , G06F18/214 , G06F18/22 , G06F16/35 , G06F40/30 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本公开涉及一种水军识别模型生成方法、水军账号识别方法、装置、设备;方法包括:构建水军账号样本集;所述水军账号样本集包括:多个普通账号在预设时间内的多条动态发文信息以及每条动态发文信息对应的静态账号信息,多个水军账号在预设时间内的多条动态发文信息以及每条动态发文信息对应的静态账号信息;对所述水军账号样本集中的数据进行预处理,得到训练数据集;将所述训练数据集输入预设水军识别模型中进行训练,得到目标水军识别模型。本方法能够高效准确地识别水军账号。
-
公开(公告)号:CN114861029B
公开(公告)日:2024-09-13
申请号:CN202210411631.7
申请日:2022-04-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/953 , G06Q10/0639 , G06Q50/00
Abstract: 本发明实施例公开了舆情塑造过程分析方法、装置、电子设备以及存储介质。该方法包括:获取目标舆情事件的舆情数据以及目标舆情事件的舆情数据的发布方;根据舆情数据,确定舆情主题;根据舆情数据随时间的变化情况,将目标舆情事件划分为多个发展阶段;根据目标舆情事件在每个发展阶段的舆情数据,确定在相应发展阶段的核心议题;从在每个发展阶段的舆情数据的发布方中,识别在相应发展阶段的舆情塑造主体;根据在每个发展阶段的核心议题与舆情主题的匹配情况,对目标舆情事件在多个发展阶段的舆情塑造主体对于目标舆情事件的舆情塑造效果进行评估。基于该方法,可以实现对于舆情塑造过程的全面分析,并实现对于舆情塑造效果进行准确评估。
-
公开(公告)号:CN118626223A
公开(公告)日:2024-09-10
申请号:CN202410705471.6
申请日:2024-06-03
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于自动化驱动工具的社交网络数据采集方法,包括:获取输入的调度任务,将调度任务转化为结构化数据,并持久化到任务存储器;基于预设的优先级策略自动调整调度任务的执行顺序和执行频率;请求获取调度任务,根据与分配的调度任务匹配的预先配置的模板,采用自动化驱动工具于社交平台上自动采集分配的调度任务所需的数据;收集分配的调度任务的状态变化,待分配的调度任务完成后将采集到的数据上报,并修改分配的调度任务的下次执行时间。本发明可通过自动化驱动技术采集获取社交网络平台数据,可完成系统内持续任务的分类定级,根据各任务执行主体的状态动态分配任务以及资源回收。
-
公开(公告)号:CN118608308A
公开(公告)日:2024-09-06
申请号:CN202410676682.1
申请日:2024-05-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06Q50/00 , G06F18/213 , G06F18/214 , G06F18/2415 , G06N3/042 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种社交账号社区发现方法、装置、设备、存储介质及产品,包括:获取待处理社交账号的账号信息;对待处理社交账号的账号信息进行特征提取,获得待处理社交账号对应的特征数据;将待处理社交账号对应的特征数据输入至社区发现模型,获得社区发现模型输出的待处理社交账号的所属社区;其中,社区发现模型为预先训练得到的关系图卷积神经网络和分类器的组合网络。本发明的方案,能够准确地确定社交账号所属的社区,提高了社交账号管理的效率和准确性。
-
公开(公告)号:CN117093915A
公开(公告)日:2023-11-21
申请号:CN202311179247.X
申请日:2023-09-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/241 , G06N3/0895 , G06F18/214 , G06F18/213 , G06F16/29 , G06F16/951
Abstract: 本发明公开了一种基于弱监督学习的网络空间测绘方法,包括以下步骤:S1、建立公共网络空间测绘IP地址库,识别已知IP信息;利用自有的基础资源数据,对单位归属较为明确的IP进行信息收集;S2、识别非已知IP地址的IP地址关联信息。本发明中,通过自研的资产识别算法,利用弱监督学习算法提取网站特征,制作高精度资产标签,对互联网资产进行空间测绘,测绘的主要内容包括IP街道级地理位置、行业分类、IP端口服务信息、证书信息、网站特征信息等,以空间测绘地图与矢量地形图相结合的方式,将数据呈现。网络空间测绘地图作为数字化时代实现数字化生产生活和数字化治理的基础设施,对提供网络安全事件监测分析、应急响应、攻击溯源都具有重要意义。
-
公开(公告)号:CN116821455A
公开(公告)日:2023-09-29
申请号:CN202310511094.8
申请日:2023-05-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/951 , G06F16/9537 , G06F16/35 , G06F40/216 , G06F40/284 , H04L67/1004 , H04L67/52 , H04L51/52
Abstract: 本发明公开了一种基于社交工具的区域数据回溯分析方法,包括:步骤一,提供一个前端浏览器访问页面,创建区域任务参数,将区域任务转化成json格式存放并进入消息队列;步骤二,实时监听消息队列,解析得到区域任务并分发到各个节点;步骤三,各个节点通过所述区域任务参数对社交工具的区域数据进行回溯获取;步骤四,对获取的每条数据进行分析,包括计算哈希值、提取关键词、标记语言标签;步骤五,以索引的形式将每条数据的分析结果及其原始数据存储入库。本发明还公开了一种基于社交工具的区域数据回溯分析系统,及电子设备和存储介质。本发明通过对特定地理区域的社交工具数据获取,能够实现对获取到的数据结合具体的业务逻辑进行分析。
-
公开(公告)号:CN116782199A
公开(公告)日:2023-09-19
申请号:CN202310505748.6
申请日:2023-05-08
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于虚拟设备生成采集资源的方法,包括:构建虚拟移动终端设备;基于虚拟移动终端设备的设备信息,利用移动客户端进行注册并生成采集资源;对采集资源进行可用性测试;保存可用的采集资源。本发明通过虚拟移动终端设备生成采集资源,使用生成的采集资源访问移动客户端进行数据采集,使采集的数据与构建的虚拟移动终端设备关联,从而实现特定设备的精准数据采集,同时也可快速收集设备和应用程序的基础信息。其次,由于移动终端设备是虚拟构建的,因此无需购买实体设备,降低了数据采集成本、管理成本和管理复杂度。
-
-
-
-
-
-
-
-
-