一种信息媒介的专题阶段性摘要的生成方法

    公开(公告)号:CN105005590B

    公开(公告)日:2019-02-22

    申请号:CN201510366843.8

    申请日:2015-06-29

    Inventor: 张仰森 尤建清

    Abstract: 本发明提供一种信息媒介的专题阶段性摘要的生成方法,包括获取特定时间段内的各信息媒介的文档;对所述信息媒介的文档进行主题抽取并生成主题集,以及对所述主题集利用话题检测与追踪技术进行话题聚类,并生成信息媒介专题的阶段性摘要,本发明实施例的信息媒介的专题阶段性摘要的生成方法具有生成的专题阶段性摘要有较好的召回率的优点。

    一种多特征融合的微博中社会安全事件检测方法

    公开(公告)号:CN109325117A

    公开(公告)日:2019-02-12

    申请号:CN201810970734.0

    申请日:2018-08-24

    Abstract: 本发明公开了一种多特征融合的微博中社会安全事件检测方法,包括获取微博文本数据后对获取到的微博文本进行预处理、提取微博文本中的社会安全事件特征词、基于语境的词语语义相关度计算方法计算社会安全事件特征词的相关度、构建社会安全事件侦测模型。本发明在对特征词进行相关度计算时,充分考虑了事件侦测过程中的领域性需求,利用大规模语料建立词语共现关系图实现特征词的相关度计算,在对事件进行识别的过程中,采用层次聚类和增量聚类相结合,充分考虑了事件随时间不断变化的过程,同时,采用特征词进行聚类,有效减小了特征维度,提升了模型的运行效率。

    一种基于情感计算与多头注意力机制的负面新闻识别方法

    公开(公告)号:CN110990564B

    公开(公告)日:2023-12-01

    申请号:CN201911133898.9

    申请日:2019-11-19

    Abstract: 本发明公开了一种基于情感计算与多头注意力机制的负面新闻识别方法,涉及网络舆情监测技术领域,解决的技术问题是如何解决客观性负面新闻难以识别的问题,包括如下具体步骤:建立并扩充负向情感种子词库并进行感倾向度计算;(3)进行向量化表示,确定判别模型的输入;(4)建立负面新闻判别模型;(5)进行负面新闻识别。本发明有效地克服了对负面新闻难以识别的问题,在负面新闻文本的识别正确率及有效性上都取得了良好的效果。(1)对网络新闻文本数据进行采集和预处理;(2)

    一种面向多数据源的网络数据采集与展示方法

    公开(公告)号:CN109543086B

    公开(公告)日:2022-11-22

    申请号:CN201811413106.9

    申请日:2018-11-23

    Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。

    基于语义联合的答案选取方法及系统

    公开(公告)号:CN113342950A

    公开(公告)日:2021-09-03

    申请号:CN202110625585.6

    申请日:2021-06-04

    Abstract: 本发明提供一种基于语义联合的答案选取方法,文本预处理与输入层对原始数据预处理,删除无正确答案问题,将问题与答案语义联合拼成文段序列,使用特殊标志分割将问题和答案句子区分,得到格式数组;语义编码层将格式数组输入,用自注意力机制使单词成为隐藏文段中其他单词信息的语义向量,并输入向前传播层,得到文段的向量表示;特征提取层获取向量表示作为问题和答案的语义信息,用线性函数将高维向量转化为低维;并用进行特征提取,获得语义语法信息;语义关联层使用分类,对语义语法信息的相关联程度进行评分,得到二维向量,选取后一维度的数值,得到关联度。本发明的方法在问答数据集上表现出优越的性能,提取答案与问题关键信息能力显著。

    一种多特征融合的微博用户权威度评价方法

    公开(公告)号:CN107169873B

    公开(公告)日:2021-05-11

    申请号:CN201710455299.3

    申请日:2017-06-16

    Abstract: 本发明公开了一种多特征融合的微博用户权威度评价方法,该方法在新浪微博的用户信息体系的基础上,总结出了用户基本信息完整度、用户传播影响力、用户活跃度以及用户平台指数4项影响用户权威度的特征,并分别给出了提取与计算方法。在用户信息传播影响力的计算中,提出了一种基于PageRank算法改进的UserRank模型,并通过实验验证了其相对于PageRank算法更加有效。最后,基于层次分析法确定了4项用户特征的权值,构建了多特征融合的微博用户权威度评价模型并进行了相关实验。实验结果表明,本发明提出的方法计算的微博用户权威度比较合理,为用户权威度的定量评价提供了一种可行的解决方案。

    微博特定事件关注群体识别方法

    公开(公告)号:CN111026976A

    公开(公告)日:2020-04-17

    申请号:CN201911282150.5

    申请日:2019-12-13

    Abstract: 一种微博特定事件关注群体识别方法,通过改进PageRank算法对特定事件的重点用户进行识别,在对特定事件的重点关注用户进行识别的基础上,对重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征,然后采用模糊c-means聚类算法对特定事件关注用户进行聚类,识别出某个特定事件下重点关注的人群层次。本发明的方法能够很好的识别出特定事件的重点关注用户,同时采用特征映射的方法对用户群体聚类分析,在平均聚类准确度上要比基于硬匹配规则高出至少0.06个百分点。

    基于主题模型的领域标签获取方法

    公开(公告)号:CN110543564A

    公开(公告)日:2019-12-06

    申请号:CN201910784200.3

    申请日:2019-08-23

    Abstract: 本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题-短语”抽取。其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。

    一种面向用户查询意图的汉语句子相似度分层计算方法及装置

    公开(公告)号:CN104133812B

    公开(公告)日:2017-03-08

    申请号:CN201410341855.0

    申请日:2014-07-17

    Inventor: 张仰森 李景玉

    Abstract: 本发明提供了一种面向用户查询意图的汉语句子相似度分层计算方法及装置,通过采用去除句末标点的编辑距离句子相似度算法对数据集进行相似度计算,确定一部分满足阈值的句子为相似句子,再采用基于关键词特征和语义特征的句子相似度算法,对数据集中的非相似句子进行相似度计算,从而再次确定一部分满足阈值的句子为相似句子,最后采用面向用户意图的句子相似度算法,对数据集中的非相似句子进行句子相似度计算,确定一部分满足阈值的句子为相似句子。至此,得到数据集中的所有相似句子。本发明计算简洁,效果良好,可以有效解决关键词差异大、长度长、句子结构复杂等问题。

Patent Agency Ranking