一种基于多数据源的论文数据爬取方法及系统

    公开(公告)号:CN110704713A

    公开(公告)日:2020-01-17

    申请号:CN201910916820.8

    申请日:2019-09-26

    Abstract: 本发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。

    一种基于多数据源的论文数据爬取方法及系统

    公开(公告)号:CN110704713B

    公开(公告)日:2022-02-08

    申请号:CN201910916820.8

    申请日:2019-09-26

    Abstract: 本发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。

    一种多模态特征的并行交叉注意力融合方法及系统

    公开(公告)号:CN119740572A

    公开(公告)日:2025-04-01

    申请号:CN202411847838.4

    申请日:2024-12-16

    Abstract: 本发明公开了一种多模态特征的并行交叉注意力融合方法及系统,该方法包括:S100:对错误检测模块检测的错误汉字,分别提取音频特征和字形特征;S200:使用双线性池化和非线性激活的方法获取音频特征和字形特征的联合表征特征;S300:利用并行交叉注意力融合网络对错误汉字的音频特征和字形特征分别进行融合;S400:将融合后的音频特征和字形特征与错误汉字对应的嵌入特征串接,再经线性变化与非线性融合,得到错误汉字的多模态特征。本申请利用并行交叉注意力融合网络对音频特征和字形特征进行融合,更关注形声字不同模态间的关联性,将本申请方法及系统应用于中文拼写纠错模型中,可进一步提高纠错准确率。

    一种面向古籍的命名实体识别方法

    公开(公告)号:CN117787281A

    公开(公告)日:2024-03-29

    申请号:CN202311839688.8

    申请日:2023-12-28

    Abstract: 本发明公开了一种面向古籍的命名实体识别方法,涉及古籍命名实体识别技术领域,该方法针对用于古籍命名实体识别古籍语料少、古文信息熵高的问题,构建基于二十四史的古籍文本语料库,并提出一种基于增量预训练和对抗学习的古籍命名实体识别模型(ANER‑IPAL)。基于自建的古籍文本数据集,使用NEZHA‑TCN模型进行预训练,在嵌入层融合对抗学习增强模型泛化能力,在解码层引入全局指针网络,将实体识别任务建模为子串提取任务,最后结合规则进行结果的矫正输出。实验结果表明,所提模型在“古籍命名实体识别2023”数据集(GuNER2023)上的F1值达到了95.34%,相较于基线模型NEZHA‑GP提高了4.19%。

    融合语义与问题关键信息的多阶段注意力答案选取方法

    公开(公告)号:CN111597316B

    公开(公告)日:2023-12-01

    申请号:CN202010409957.7

    申请日:2020-05-15

    Abstract: 本发明公开了融合语义与问题关键信息的多阶段注意力答案选取方法,该方法包括两个阶段,第一阶段为:获取候选答案LSTM双向输出的语义表示,利用问题的关键信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示与问题的语义表示进行相关度计算,筛选出相关度最高的候选答案;第二阶段为:获取筛选出的候选答案LSTM双向输出的语义表示,利用问题的语义信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示再次与问题的语义表示进行相关度计算,从候选答案中选取最佳答案。本发明可加强模型对候选答案关键信息的捕获能力,从而提升答案选取的准确率。

    一种基于情景建模和卷积神经网络的微博个性化推荐方法

    公开(公告)号:CN110489665B

    公开(公告)日:2023-11-14

    申请号:CN201910759011.0

    申请日:2019-08-16

    Abstract: 本发明提供一种基于情景建模和卷积神经网络的微博个性化推荐方法,首先从时间和地域两个维度对用户进行情景建模,提取用户的时间情景模式和地域情景模式;然后,构建情景模式相似度计算方法对用户的情景模式进行扩展,捕捉用户感兴趣的情景模式倾向,构建用户个性化情景模式库;最后,采用卷积神经网络构建个性化微博推荐模型,实现微博用户的个性化推荐。情景模型的构建和卷积神经网络的引入,对于捕获用户的兴趣提供了很大的帮助。最终本发明基于真实的微博数据与现有算法进行对比,证明了该模型具有很好的推荐效果,相比于现有模型在用户满意度和平均绝对误差上都提升了3%‑4%。

    一种微博突发事件的检测方法

    公开(公告)号:CN110543590A

    公开(公告)日:2019-12-06

    申请号:CN201910061262.1

    申请日:2019-01-23

    Abstract: 本发明公开了一种微博突发事件的检测方法,包括:步骤1,对去除噪声和分词处理后的微博数据进行时间划分,获得与时间窗口对应的微博数据集;步骤2,计算各时间窗口包含的所有微博中各词w的突发词判断权重Wk(w),将Wk(w)大于突发词阈值的词作为突发词,从而获得各时间窗口的突发词集;步骤3,基于突发词集中两两突发词的耦合度,利用聚类算法对突发词集中突发词进行聚类,并基于聚类结果检测时间窗口的突发事件。和现有方法相比,本发明基于突发特征词的微博突发事件的检测方法在准确率和F值上有了很大的提升,即检测结果更准确。

    一种基于情景建模和卷积神经网络的微博个性化推荐方法

    公开(公告)号:CN110489665A

    公开(公告)日:2019-11-22

    申请号:CN201910759011.0

    申请日:2019-08-16

    Abstract: 本发明提供一种基于情景建模和卷积神经网络的微博个性化推荐方法,首先从时间和地域两个维度对用户进行情景建模,提取用户的时间情景模式和地域情景模式;然后,构建情景模式相似度计算方法对用户的情景模式进行扩展,捕捉用户感兴趣的情景模式倾向,构建用户个性化情景模式库;最后,采用卷积神经网络构建个性化微博推荐模型,实现微博用户的个性化推荐。情景模型的构建和卷积神经网络的引入,对于捕获用户的兴趣提供了很大的帮助。最终本发明基于真实的微博数据与现有算法进行对比,证明了该模型具有很好的推荐效果,相比于现有模型在用户满意度和平均绝对误差上都提升了3%-4%。

Patent Agency Ranking