一种大语言模型驱动的立场感知事实核查方法

    公开(公告)号:CN117786112A

    公开(公告)日:2024-03-29

    申请号:CN202311840550.X

    申请日:2023-12-28

    Abstract: 本发明公开了一种大语言模型驱动的立场感知事实核查方法,涉及自然语言处理技术领域,首先,使用大语言模型推理并生成一系列与原始声明立场不同的辩证声明,使事实核查任务能够获取不同立场的视角,其次,通过语义相似度计算,分别衡量了每个证据句子与原始声明及辩证声明之间的相关性,并从中选择了与两者语义上最相近的k个句子,以作为支持或反对原始声明的证据,该步骤获得了代表不同立场的证据,有助于事实核查模型综合多角度的信息,从而更准确地评估声明的真实性,最后,引入了BERT‑StuSE模型,利用多头注意力机制充分融合证据的语义和立场信息,并对声明和证据的关系进行更全面、客观的判断。

    基于主题模型的领域标签获取方法

    公开(公告)号:CN110543564B

    公开(公告)日:2023-06-20

    申请号:CN201910784200.3

    申请日:2019-08-23

    Abstract: 本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题‑短语”抽取。其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。

    一种弹幕关键词提取方法、装置、设备及介质

    公开(公告)号:CN112989802A

    公开(公告)日:2021-06-18

    申请号:CN202110115490.X

    申请日:2021-01-28

    Abstract: 本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。

    一种基于多数据源的论文数据爬取方法及系统

    公开(公告)号:CN110704713A

    公开(公告)日:2020-01-17

    申请号:CN201910916820.8

    申请日:2019-09-26

    Abstract: 本发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。

    一种面向多数据源的网络数据采集与展示方法

    公开(公告)号:CN109543086A

    公开(公告)日:2019-03-29

    申请号:CN201811413106.9

    申请日:2018-11-23

    Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。

    一种面向用户查询意图的汉语句子相似度分层计算方法及装置

    公开(公告)号:CN104133812A

    公开(公告)日:2014-11-05

    申请号:CN201410341855.0

    申请日:2014-07-17

    Inventor: 张仰森 李景玉

    Abstract: 本发明提供了一种面向用户查询意图的汉语句子相似度分层计算方法及装置,通过采用去除句末标点的编辑距离句子相似度算法对数据集进行相似度计算,确定一部分满足阈值的句子为相似句子,再采用基于关键词特征和语义特征的句子相似度算法,对数据集中的非相似句子进行相似度计算,从而再次确定一部分满足阈值的句子为相似句子,最后采用面向用户意图的句子相似度算法,对数据集中的非相似句子进行句子相似度计算,确定一部分满足阈值的句子为相似句子。至此,得到数据集中的所有相似句子。本发明计算简洁,效果良好,可以有效解决关键词差异大、长度长、句子结构复杂等问题。

    一种车流量和车速的检测方法及系统

    公开(公告)号:CN102789691A

    公开(公告)日:2012-11-21

    申请号:CN201210298123.9

    申请日:2012-08-21

    Inventor: 艾红 王捷 张仰森

    Abstract: 本发明公开了一种车流量和车速的检测方法及系统,所述车流量和车速的检测方法包括:将两个与一单片机连接的热释电红外传感器沿道路长度方向分开一定距离安装于道路上方或侧方,且所述两个热释电红外传感器处于同一平面上;第一热释电红外传感器探测到一车辆驶入时输出脉冲信号至所述单片机,单片机内置定时器开始计时,同时所述单片机对车流量的计数加1;第二热释电红外传感器探测到上述车辆驶入时输出脉冲信号至所述单片机,所述定时器停止计时,由所述单片机根据所述两热释电红外传感器间的距离与所述定时器计算的时间计算所述车辆车速后,将计数及车速送至所述显示器显示。与现有检测方法比,本发明简单、检测准确,对交通管理具有重要现实意义。

Patent Agency Ranking