-
公开(公告)号:CN113221542A
公开(公告)日:2021-08-06
申请号:CN202110348599.8
申请日:2021-03-31
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
IPC: G06F40/232 , G06F40/242 , G06F40/284
Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。
-
公开(公告)号:CN116186191A
公开(公告)日:2023-05-30
申请号:CN202210320305.5
申请日:2022-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
Abstract: 本发明涉及基于多维信息的任务匹配方法,属于基于大数据智能分析与挖掘技术领域。本发明是结合文本处理、机器学习方法、线性模型、动态规划等方法对相应文本进行处理,从而对文本所含“价值”进行分析,并借助大数据的手段将人工主观文本分析变为自动化完成,提高系统找到匹配结果的效率。本发明采用多种大数据分析的思想和多路召回的思想,对于同一任务会召回多个表单,每一个表单进行同样的操作,设置不同的权重,最后多路交集,从而可以取到更加准确的筛选结果,大大提高了工作效率。
-
公开(公告)号:CN118657148A
公开(公告)日:2024-09-17
申请号:CN202410681340.9
申请日:2024-05-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/205 , G06F40/126 , G06F16/33
Abstract: 本发明提供一种实体关系抽取方法、装置、电子设备以及存储介质,涉及人工智能技术领域。实体关系抽取方法包括:利用注意力模型,处理待处理文本以及目标实体关系词,得到实体关系判别信息;利用实体关系判别信息,得到目标第一命名实体与候选第二命名实体在待处理文本中的第一关联度、目标第一命名实体与目标实体关系词在待处理文本中的第二关联度,以及候选第二命名实体与目标实体关系词在待处理文本中的第三关联度;响应于第一关联度、第二关联度以及第三关联度均大于各自对应的预设阈值,从待处理文本中抽取出目标第一命名实体和候选第二命名实体之间的待抽取的实体关系。本发明可以准确、高效地执行实体关系抽取任务。
-
公开(公告)号:CN118643380A
公开(公告)日:2024-09-13
申请号:CN202410654369.8
申请日:2024-05-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/241 , G06F18/214 , G06F18/22 , G06F16/35 , G06F40/30 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本公开涉及一种水军识别模型生成方法、水军账号识别方法、装置、设备;方法包括:构建水军账号样本集;所述水军账号样本集包括:多个普通账号在预设时间内的多条动态发文信息以及每条动态发文信息对应的静态账号信息,多个水军账号在预设时间内的多条动态发文信息以及每条动态发文信息对应的静态账号信息;对所述水军账号样本集中的数据进行预处理,得到训练数据集;将所述训练数据集输入预设水军识别模型中进行训练,得到目标水军识别模型。本方法能够高效准确地识别水军账号。
-
公开(公告)号:CN116821455A
公开(公告)日:2023-09-29
申请号:CN202310511094.8
申请日:2023-05-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/951 , G06F16/9537 , G06F16/35 , G06F40/216 , G06F40/284 , H04L67/1004 , H04L67/52 , H04L51/52
Abstract: 本发明公开了一种基于社交工具的区域数据回溯分析方法,包括:步骤一,提供一个前端浏览器访问页面,创建区域任务参数,将区域任务转化成json格式存放并进入消息队列;步骤二,实时监听消息队列,解析得到区域任务并分发到各个节点;步骤三,各个节点通过所述区域任务参数对社交工具的区域数据进行回溯获取;步骤四,对获取的每条数据进行分析,包括计算哈希值、提取关键词、标记语言标签;步骤五,以索引的形式将每条数据的分析结果及其原始数据存储入库。本发明还公开了一种基于社交工具的区域数据回溯分析系统,及电子设备和存储介质。本发明通过对特定地理区域的社交工具数据获取,能够实现对获取到的数据结合具体的业务逻辑进行分析。
-
公开(公告)号:CN116782199A
公开(公告)日:2023-09-19
申请号:CN202310505748.6
申请日:2023-05-08
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于虚拟设备生成采集资源的方法,包括:构建虚拟移动终端设备;基于虚拟移动终端设备的设备信息,利用移动客户端进行注册并生成采集资源;对采集资源进行可用性测试;保存可用的采集资源。本发明通过虚拟移动终端设备生成采集资源,使用生成的采集资源访问移动客户端进行数据采集,使采集的数据与构建的虚拟移动终端设备关联,从而实现特定设备的精准数据采集,同时也可快速收集设备和应用程序的基础信息。其次,由于移动终端设备是虚拟构建的,因此无需购买实体设备,降低了数据采集成本、管理成本和管理复杂度。
-
公开(公告)号:CN116720009A
公开(公告)日:2023-09-08
申请号:CN202310538132.9
申请日:2023-05-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06F16/9535
Abstract: 本公开涉及一种社交机器人检测方法、装置、设备及存储介质。本公开通过获取社交属性数据、推文属性数据和社交行为数据,可以确定用户节点的节点特征向量以及用户节点与其他用户节点之间的关联关系,由于节点特征向量中的每个元素均为用户节点某个维度的特征,因此,节点特征向量从多个维度更加全面地描述了用户节点的特征,而用户节点与其他用户节点之间的关联关系为异构关联关系,异构关联关系可以理解为不同类型的关联关系,包括显性关系和隐性关系,因此,基于用户节点的节点特征向量以及用户节点与其他用户节点之间的关联关系,能够挖掘不同用户账户之间的行为关联性,从而更加有效地识别伪装成真实用户的社交机器人及社交机器人群体。
-
公开(公告)号:CN111680059B
公开(公告)日:2023-08-15
申请号:CN202010356697.1
申请日:2020-04-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/245 , G06F16/9536 , G06F21/31
Abstract: 本发明公开了一种基于特定区域的活跃人员、常驻人员的分析方法,其包括:S1、采集特定区域内的账户信息;S2、对账户信息进行去重;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;S3、基于人员统计库,将出现次数排名靠前的账户标识为活跃人员;S4、基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员。本发明可有效地统计和识别出某个特定区域的社交渠道上的活跃人员和常驻人员,进而实现更加高效和多方面的支持网络舆情的分析工作。
-
公开(公告)号:CN116467454A
公开(公告)日:2023-07-21
申请号:CN202310504562.9
申请日:2023-05-06
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/9537 , G06F40/194
Abstract: 本发明公开了一种综合多模型的网络热点话题传播模式分类方法,其包括以下步骤:步骤一、收集平台t时间段内的目标热点话题的帖子数据;步骤二、基于帖子数据计算帖子基本维度信息;步骤三、绘制关于时间‑帖子数量的话题热度变化曲线;步骤四、提取目标热点话题的竞争性话题,并计算竞争性话题数量;步骤五、基于帖子数据,量化目标热点话题的传播角色的信息;步骤六、通过漏斗模型和网络模型,进行目标热点话题的传播模式识别分类。本发明构建了一种普适的网络热点话题传播模式识别分类方法,能够有效地判断话题的传播类型,即使在话题部分维度数据缺失的情况下仍然具有较好的分类结果。
-
公开(公告)号:CN113449601B
公开(公告)日:2023-05-16
申请号:CN202110591209.X
申请日:2021-05-28
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06V40/10 , G06V20/40 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明提出一种基于渐进性平滑损失的行人重识别模型训练方法,包括:获取训练样本数据;其中,所述训练样本数据包括多个包含行人的视频;将所述训练样本数据输入至初始模型中,得到对应各所述包含行人的视频的帧级别特征和视频级别特征;分别基于所述帧级别特征和所述视频级别特征计算第一损失和第二损失;基于所述第一损失和所述第二损失对所述初始模型的模型参数进行优化,得到行人重识别模型。
-
-
-
-
-
-
-
-
-