-
公开(公告)号:CN118861290A
公开(公告)日:2024-10-29
申请号:CN202410896355.7
申请日:2024-07-05
申请人: 中国电子科技集团公司第五十四研究所 , 武汉大学
IPC分类号: G06F16/35 , G06F16/33 , G06F16/36 , G06F16/951 , G06F16/9537 , G06F18/22 , G06F18/23 , G06F40/216 , G06F40/295 , G06F40/30 , G06Q50/00
摘要: 本发明公开了一种基于事件权威影响力计算的流聚类故事生成方法,属于社交媒体数据挖掘与分析技术领域。本发明首先对推文数据进行清洗、分割、分词及词性标注等预处理操作;然后对经过预处理后的推文数据进行权威影响力计算;最终基于推文事件权威影响力筛选排序进行流聚类生成不同故事类簇。本发明针对海量推文数据的涌现难以聚焦事件关键信息的问题,通过对推文数据构建权威影响力计算排序优化Single‑Pass算法,实现更为简明清晰的故事生成,为下游的热点事件分析等应用提供有力的支撑。
-
公开(公告)号:CN118861291A
公开(公告)日:2024-10-29
申请号:CN202410896623.5
申请日:2024-07-05
申请人: 中国电子科技集团公司第五十四研究所 , 武汉大学
IPC分类号: G06F16/35 , G06F16/34 , G06F16/951 , G06F16/9537 , G06F18/213 , G06F18/22 , G06F18/231 , G06F18/2321 , G06F40/216 , G06F40/284 , G06F40/30 , G06Q50/00
摘要: 本发明公开了一种基于双层嵌套聚类的故事脉络生成方法,属于社交媒体数据挖掘与分析技术领域。本发明首先基于生成的多主题故事集合实现代表性事件的子话题挖掘和关联分析,生成具有骨干及分支脉络的多层次故事树;在对于不同等级的脉络构建了骨干脉络标题摘要和联合语义主题及地理实体概念的GeoTextRank分支脉络摘要算法,实现了对故事主题及情节的提炼。本发明利用双层嵌套聚类的故事脉络生成方法,分别聚类生成故事脉络骨干和故事脉络的分支事件,从宏观上简明直观的展示热点事件,从微观精细化跟踪热点事件,从而实现多层次的主题抽取手段和关联策略,为事件的发展演化分析奠定基础。
-
公开(公告)号:CN118861292A
公开(公告)日:2024-10-29
申请号:CN202410896881.3
申请日:2024-07-05
申请人: 中国电子科技集团公司第五十四研究所 , 武汉大学
IPC分类号: G06F16/35 , G06F16/34 , G06F16/951 , G06F16/9537 , G06F18/23 , G06F40/216 , G06F40/284 , G06F40/30 , G06Q50/00
摘要: 本发明公开了一种基于推文数据的热点事件脉络动态生长方法,属于社交媒体数据挖掘与分析技术领域。本发明首先利用在线实时数据生成故事脉络;然后利用生成的故事脉络从中进行一定的实体提取,层次分析,从而实现对潜在关键词的提取;最终利用提取的潜在关键词爬取对应的推文数据用于动态更新故事脉络,此流程不断迭代,实现故事脉络动态实时生成。本发明针对传统事件发展过程依赖于离线历史数据库、故事描述缺乏实时性和动态性的问题,利用在线实时数据生成故事脉络,提取潜在关键词爬取推文数据用于迭代生成故事脉络,从而进行动态实时更新事件脉络,解决动态化脉络演化问题。
-
-