一种基于图模型的文本分词提取方法、系统及应用

    公开(公告)号:CN114492415A

    公开(公告)日:2022-05-13

    申请号:CN202210095563.8

    申请日:2022-01-26

    IPC分类号: G06F40/284

    摘要: 本发明属于语义网络技术领域,公开了一种基于图模型的文本分词提取方法、系统及应用。利用中文分词技术对文本进行分词处理;根据停用表对文本词汇进行去停用词处理;依据概率统计学,将待分词句子拆分为网状结构,得n个能组合的句子结构;基于统计学方法,给网状结构每条边赋予一定的权值;将权值最大的路径作为待分词句子的分词结果。本发明的方法比传统的词频‑反文档频率方法得到的特征词汇集合的准确度更高。本发明克服了信息增益方法只适合用来提取一个类别的文本特征的缺点。为后续的文本相似度与文本聚类技术提供良好的理论基础。本发明具有更大的利用价值。本发明精确地计算了特征词汇中不同词汇对文本思想的贡献度。

    基于改进的TF-IDF文本分类方法、系统及计算机设备

    公开(公告)号:CN114282525A

    公开(公告)日:2022-04-05

    申请号:CN202111584594.1

    申请日:2021-12-22

    摘要: 本发明公开一种基于改进的TF‑IDF文本分类方法、系统及计算机设备,涉及语义网络技术领域。构建文本训练样本,类别集合为;提取上述文本训练样本的类别抽象特征。测试样本先进行分词,去停用词,根据特征加权函数把测试样本转换为向量空间模型,同样提取前m个特征代表测试文本,再计算文本与各类间的相似程度,取相似度最高的即为测试文本所属类别。更新文本训练样本库。本发明综合考虑了特征类间区分度以及类内贡献度,得到的特征值更能代表类特征和当前文档特征。本发明得到的分类结果更符合经验值,准确率更高。本发明该算法运算处理速度快,简便,得到高效率的分类结果。

    一种结合内容和图谱的舆情事件推荐方法、系统及终端

    公开(公告)号:CN114153965A

    公开(公告)日:2022-03-08

    申请号:CN202111494086.4

    申请日:2021-12-08

    IPC分类号: G06F16/335 G06F16/36

    摘要: 本发明属于网络空间认知技术领域,公开了一种结合内容和图谱的舆情事件推荐方法、系统及终端。将领域知识图谱引入相关舆情事件推荐中,采用实体提取和关系提取知识图谱构建方法将舆情事件整合到已有的领域图谱数据,并采用TransE的知识嵌入方法计算事件的知识表示;对获取的最终的事件表示,以舆情事件的影响力指数作为额外补充信息,为推荐数量不满足k个的事件推荐k‑n个影响力值最大的事件作为补充。本发明创新性地将领域知识图谱引入相关舆情事件推荐中,采用实体提取和关系提取等知识图谱构建方法将舆情事件整合到已有的领域图谱数据,并采用TransE的知识嵌入方法计算事件的知识表示。

    事件拐点识别的方法、系统、终端、计算机设备及介质

    公开(公告)号:CN112685560A

    公开(公告)日:2021-04-20

    申请号:CN202011563057.4

    申请日:2020-12-25

    摘要: 本发明公开一种事件拐点识别的方法、系统、终端、计算机设备及介质,涉及语义网络技术领域。构建事件基础元素数据库,所述事件包含人、组织、时间、地点、事件触发词元素,所述人、组织、地点、事件触发词分别具备各自特有属性;根据所述事件多维度的发展趋势数据,构建所述事件发展趋势数据的各个影响因素的行业影响力值;根据所述行业影响力,识别出事件发展趋势数据中的拐点。事件拐点识别系统包括事件基础元素数据库、行业影响力值构建模块、数据拐点识别模块。本发明针对事件拐点识别具备普适性。本发明为垂直领域事件的拐点识别提供了基础理论。

    网络舆情引导效果数据信息处理方法、系统、终端及介质

    公开(公告)号:CN112711691B

    公开(公告)日:2024-04-30

    申请号:CN202110025513.8

    申请日:2021-01-08

    摘要: 本发明公开一种网络舆情引导效果数据信息处理方法、系统、终端及介质,涉及网络数据信息处理技术领域。网络舆情态势评估指标体系构建模块用于建立网络舆情威胁态势评估指标体系、确定各指标计算方法,并计算随着时间变化的网络威胁指数曲线;基于事件传播路径图的引导体影响力评估指标体系构建模块用于建立事件的传播路径图和引导体影响力评估指标体系,确定各指标计算方法,计算引导体在舆情发展过程中的影响力;引导效果评估数据信息处理模块用于利用事件的网络舆论态势特征和传播图特征进行引导效果数据信息的评估。本发明舆情威胁态势评估考虑全面,并可对引导个体所起到的具体作用进行分析。

    基于链接预测的商品推荐方法、装置及相关设备

    公开(公告)号:CN112561644B

    公开(公告)日:2023-08-01

    申请号:CN202011487378.0

    申请日:2020-12-16

    摘要: 本发明公开了一种基于链接预测的商品推荐方法,应用于链接预测技术领域,用于无法基于稀疏的标注信息的图数据集进行特征预测以及无法实现跨平台推荐的问题。本发明提供的方法包括:获取来自第一平台的第一图数据集和来自第二平台的第二图数据集;所述第一图数据集包括商品购买用户节点集合、商品节点集合及标注信息;根据所述标注信息获得每个商品购买用户节点的商品喜好度表示特征并传播到所述第一用户节点集合,并基于所述人际关系边连接关系传播到所述第二用户节点集合中的每个用户节点形成对应的商品购买倾向特征;根据所述商品喜好度表示特征与所述商品购买倾向特征获取商品推荐结果。

    基于MACD指标的舆情趋势分析应用方法、系统及应用

    公开(公告)号:CN115640929A

    公开(公告)日:2023-01-24

    申请号:CN202211319318.7

    申请日:2022-10-26

    IPC分类号: G06Q10/06 G06F8/38 G06F16/953

    摘要: 本发明属于网络空间认知域技术领域,公开了基于MACD指标的舆情趋势分析应用方法、系统及应用。该方法包括:采用EMA作为均线的计算方式,计算新的舆情指数的权重,根据所述权重对舆情指数中长期的趋势进行预测;制作获得长短期指数移动平均线之间的差值DIF、信号线的值DEA曲线趋势图以及MACD柱状图,并进行可视化;对各种不同场景下的舆情指数趋势进行预警预测。本发明不同于以往的针对某个当下的具体热点话题或者事件做出分析,而是转向对整体网络舆情走势的分析,同时能够涵盖中长周期舆情的特征,使得对舆情趋势的预测更加稳定,避免了因局部数据不准确或者噪音造成的对舆情趋势预测的干扰。

    领域实体与事件双中心知识图谱构建方法、系统及设备

    公开(公告)号:CN115269877A

    公开(公告)日:2022-11-01

    申请号:CN202210957668.X

    申请日:2022-08-10

    IPC分类号: G06F16/36 G06F21/62

    摘要: 本发明属于数据挖掘与识别技术领域,公开了领域实体与事件双中心知识图谱构建方法、系统及设备,知识图谱构建结合以实体为中心和以事件为中心,描绘现实事件中的实体、实体属性、实体关系等静态信息,还可以表达事件属性、事件关系等动态信息。设计一种新型的四元组数据结构,实现知识图谱中数据的来源追踪,可支撑数据访问控制、隐私保护和许可证管理等实际应用。设计一种新型的衍生图计算模块,支持对知识图谱数据聚合、统计、关联和变换等运算,同时支撑图嵌入、机器学习模型等智能计算,并将运算后的数据保存在图存储引擎当中,加快知识图谱查询和检索本发明提升了知识图谱的细粒度访问控制、隐私保护和数据管理能力。

    凝聚型层次聚类算法优化系统、方法、设备、介质及终端

    公开(公告)号:CN114547316A

    公开(公告)日:2022-05-27

    申请号:CN202210453344.2

    申请日:2022-04-27

    IPC分类号: G06F16/35 G06K9/62

    摘要: 本发明属于自然语言处理技术领域,公开了凝聚型层次聚类算法优化系统、方法、设备、介质及终端,对凝聚型层次聚类算法的计算过程进行优化,将目标聚类样本拆分为多个组团,对不同组团分别进行聚类后,对不同聚类组团进行合并,得到最终的聚类结果。为避免计算量随样本量增加呈指数级增长的问题,有效提升凝聚型层次聚类算法的计算效率。本发明优化后的算法能够支持多进程计算,针对不同组团的聚类可同步进行,通过对多进程计算的支持,可显著提升计算效率。针对10000条文本数据进行聚类测试,本发明优化后的算法聚类部分计算时长约为30.1s,传统算法聚类部分计算时长约为101.5s,优化后算法聚类计算效率有显著提升。

    基于用户活跃度网络平台热度信息预测方法、系统、终端

    公开(公告)号:CN114511133A

    公开(公告)日:2022-05-17

    申请号:CN202111644632.8

    申请日:2021-12-29

    摘要: 本发明公开基于用户活跃度网络平台热度信息预测方法、系统、终端,涉及网络空间认知技术领域。利用构建的基于用户活跃度的网络平台热度影响元素数据库确定用户端追踪账号的活跃程度信息;综合网络平台热度影响元素数据库的平台热度影响元素,并结合确定的所述活跃程度信息,构建基于用户活跃度的网络平台热度值计算的目标函数。本发明比较两种方法,两种平台热度计算方法得到排名是相同的,即LD热度最高,第二DC平台,第三BK平台,最后GD平台,符合专家经验值;基于用户活跃度的平台热度计算方法更能明显区分4大平台的热度排序,结果值表明,本发明提供的一种计算平台热度方法更准确。