-
公开(公告)号:CN119740572A
公开(公告)日:2025-04-01
申请号:CN202411847838.4
申请日:2024-12-16
Applicant: 北京信息科技大学
IPC: G06F40/232 , G06F40/126 , G06F18/25 , G06N3/045 , G06N3/0464 , G10L25/30 , G10L25/51
Abstract: 本发明公开了一种多模态特征的并行交叉注意力融合方法及系统,该方法包括:S100:对错误检测模块检测的错误汉字,分别提取音频特征和字形特征;S200:使用双线性池化和非线性激活的方法获取音频特征和字形特征的联合表征特征;S300:利用并行交叉注意力融合网络对错误汉字的音频特征和字形特征分别进行融合;S400:将融合后的音频特征和字形特征与错误汉字对应的嵌入特征串接,再经线性变化与非线性融合,得到错误汉字的多模态特征。本申请利用并行交叉注意力融合网络对音频特征和字形特征进行融合,更关注形声字不同模态间的关联性,将本申请方法及系统应用于中文拼写纠错模型中,可进一步提高纠错准确率。
-
公开(公告)号:CN117787281A
公开(公告)日:2024-03-29
申请号:CN202311839688.8
申请日:2023-12-28
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06N3/049 , G06N3/0464 , G06N3/08 , G06N3/045 , G06N3/0475 , G06N3/094 , G06F40/30 , G06F16/35
Abstract: 本发明公开了一种面向古籍的命名实体识别方法,涉及古籍命名实体识别技术领域,该方法针对用于古籍命名实体识别古籍语料少、古文信息熵高的问题,构建基于二十四史的古籍文本语料库,并提出一种基于增量预训练和对抗学习的古籍命名实体识别模型(ANER‑IPAL)。基于自建的古籍文本数据集,使用NEZHA‑TCN模型进行预训练,在嵌入层融合对抗学习增强模型泛化能力,在解码层引入全局指针网络,将实体识别任务建模为子串提取任务,最后结合规则进行结果的矫正输出。实验结果表明,所提模型在“古籍命名实体识别2023”数据集(GuNER2023)上的F1值达到了95.34%,相较于基线模型NEZHA‑GP提高了4.19%。
-
公开(公告)号:CN111597316B
公开(公告)日:2023-12-01
申请号:CN202010409957.7
申请日:2020-05-15
Applicant: 北京信息科技大学
IPC: G06F16/332 , G06F16/33 , G06F16/9535 , G06F40/30
Abstract: 本发明公开了融合语义与问题关键信息的多阶段注意力答案选取方法,该方法包括两个阶段,第一阶段为:获取候选答案LSTM双向输出的语义表示,利用问题的关键信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示与问题的语义表示进行相关度计算,筛选出相关度最高的候选答案;第二阶段为:获取筛选出的候选答案LSTM双向输出的语义表示,利用问题的语义信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示再次与问题的语义表示进行相关度计算,从候选答案中选取最佳答案。本发明可加强模型对候选答案关键信息的捕获能力,从而提升答案选取的准确率。
-
公开(公告)号:CN110489665B
公开(公告)日:2023-11-14
申请号:CN201910759011.0
申请日:2019-08-16
Applicant: 北京信息科技大学
IPC: G06F16/9536 , G06F16/9535 , G06F16/951 , G06F40/289 , G06Q50/00 , G06N3/0464 , G06F18/22
Abstract: 本发明提供一种基于情景建模和卷积神经网络的微博个性化推荐方法,首先从时间和地域两个维度对用户进行情景建模,提取用户的时间情景模式和地域情景模式;然后,构建情景模式相似度计算方法对用户的情景模式进行扩展,捕捉用户感兴趣的情景模式倾向,构建用户个性化情景模式库;最后,采用卷积神经网络构建个性化微博推荐模型,实现微博用户的个性化推荐。情景模型的构建和卷积神经网络的引入,对于捕获用户的兴趣提供了很大的帮助。最终本发明基于真实的微博数据与现有算法进行对比,证明了该模型具有很好的推荐效果,相比于现有模型在用户满意度和平均绝对误差上都提升了3%‑4%。
-
公开(公告)号:CN110543590A
公开(公告)日:2019-12-06
申请号:CN201910061262.1
申请日:2019-01-23
Applicant: 北京信息科技大学
IPC: G06F16/951 , G06F16/953 , G06F16/9535 , G06F16/35 , G06F16/33
Abstract: 本发明公开了一种微博突发事件的检测方法,包括:步骤1,对去除噪声和分词处理后的微博数据进行时间划分,获得与时间窗口对应的微博数据集;步骤2,计算各时间窗口包含的所有微博中各词w的突发词判断权重Wk(w),将Wk(w)大于突发词阈值的词作为突发词,从而获得各时间窗口的突发词集;步骤3,基于突发词集中两两突发词的耦合度,利用聚类算法对突发词集中突发词进行聚类,并基于聚类结果检测时间窗口的突发事件。和现有方法相比,本发明基于突发特征词的微博突发事件的检测方法在准确率和F值上有了很大的提升,即检测结果更准确。
-
公开(公告)号:CN110489665A
公开(公告)日:2019-11-22
申请号:CN201910759011.0
申请日:2019-08-16
Applicant: 北京信息科技大学
IPC: G06F16/9536 , G06F16/9535 , G06F16/951 , G06F17/27 , G06Q50/00 , G06N3/04 , G06K9/62
Abstract: 本发明提供一种基于情景建模和卷积神经网络的微博个性化推荐方法,首先从时间和地域两个维度对用户进行情景建模,提取用户的时间情景模式和地域情景模式;然后,构建情景模式相似度计算方法对用户的情景模式进行扩展,捕捉用户感兴趣的情景模式倾向,构建用户个性化情景模式库;最后,采用卷积神经网络构建个性化微博推荐模型,实现微博用户的个性化推荐。情景模型的构建和卷积神经网络的引入,对于捕获用户的兴趣提供了很大的帮助。最终本发明基于真实的微博数据与现有算法进行对比,证明了该模型具有很好的推荐效果,相比于现有模型在用户满意度和平均绝对误差上都提升了3%-4%。
-
-
公开(公告)号:CN109325117A
公开(公告)日:2019-02-12
申请号:CN201810970734.0
申请日:2018-08-24
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F16/332 , G06F16/951 , G06F16/955 , G06F16/9535 , G06F17/27 , G06F17/22
Abstract: 本发明公开了一种多特征融合的微博中社会安全事件检测方法,包括获取微博文本数据后对获取到的微博文本进行预处理、提取微博文本中的社会安全事件特征词、基于语境的词语语义相关度计算方法计算社会安全事件特征词的相关度、构建社会安全事件侦测模型。本发明在对特征词进行相关度计算时,充分考虑了事件侦测过程中的领域性需求,利用大规模语料建立词语共现关系图实现特征词的相关度计算,在对事件进行识别的过程中,采用层次聚类和增量聚类相结合,充分考虑了事件随时间不断变化的过程,同时,采用特征词进行聚类,有效减小了特征维度,提升了模型的运行效率。
-
公开(公告)号:CN107135281A
公开(公告)日:2017-09-05
申请号:CN201710146433.1
申请日:2017-03-13
Applicant: 国家计算机网络与信息安全管理中心 , 北京信息科技大学
Abstract: 本发明实施例提供一种基于多数据源融合的IP地域类特征提取方法,包括:步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。
-
公开(公告)号:CN114913530B
公开(公告)日:2025-02-11
申请号:CN202210440263.9
申请日:2022-04-25
Applicant: 北京信息科技大学
IPC: G06V30/148 , G06N3/0464 , G06F16/951 , G06F16/35 , G06V10/774 , G06V10/82 , G06N3/0442 , G06N3/045
Abstract: 本发明公开了一种审计凭证数字化方法及系统,包括:构建审计文档的图像资源库;利用OCA多阶段光学字符识别模型对图像资源库中图像进行文字识别,得到数字化的审计文档;利用ACPmarked架构对数字化的审计文档进行文本分类,去除审计无关的文字内容。本发明可以有效实现审计凭证的数字化,减轻审计专业人员的劳动强度,对提高审计效率和质量具有重要意义。
-
-
-
-
-
-
-
-
-