一种微博突发话题检测方法及装置

    公开(公告)号:CN106294333B

    公开(公告)日:2019-10-29

    申请号:CN201510236634.1

    申请日:2015-05-11

    Abstract: 本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。

    一种模板网站关键源码片段识别方法

    公开(公告)号:CN118796264A

    公开(公告)日:2024-10-18

    申请号:CN202410768709.X

    申请日:2024-06-14

    Abstract: 本发明涉及模板网站发现技术领域,公开了一种模板网站关键源码片段识别方法,包括基于PC端/移动端两种UserAgent获取网站的页面源代码,并且获取到图片、文件等外链资源;获取到完整的网页源码信息后,通过构建源码文件和源码片段的提取规则,获取到HTML、JS、CSS、IMG片段或文件;基于人工分析并形成评价源码相关性和通用性的指标体系,通过人工标注一批正样本和负样本;基于机器学习模型进行训练,形成网站关键源码片段研判模型;通过模型对实时源码片段数据进行分析,并输出研判结果。本发明通过构建网站相关性和通用性维度指标体系,基于机器学习模型提取网站的关键源码片段。基于该识别结果能够在不掌握大量样本的情况下,支撑对大量网站和源码进行快速匹配识别模板网站,大大提高了识别效率降低算力消耗。

    基于企业风险关联图谱的企业风险数据处理方法及装置

    公开(公告)号:CN111861119B

    公开(公告)日:2023-07-11

    申请号:CN202010555450.2

    申请日:2020-06-17

    Abstract: 本申请涉及一种基于企业风险关联图谱的企业风险数据处理方法及装置。该方法包括:获取企业风险关联图谱并确定第一目标节点,企业风险关联图谱用于保存企业之间的风险传播关系,第一目标节点为企业风险关联图谱中的节点,用于表示出现风险问题的风险企业;利用企业风险关联图谱确定与第一目标节点关联的第二目标节点的风险参数,第二目标节点为企业风险关联图谱中的节点,用于表示与风险企业存在关联关系的企业,风险参数用于表示与风险企业存在关联关系的企业受风险企业影响的概率。本申请实现了从企业关联关系的角度分析其他企业受风险企业影响的概率,提供了评估企业之间风险传播的更为准确、形象的方法。

    非法集资线索识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114817485A

    公开(公告)日:2022-07-29

    申请号:CN202110078586.3

    申请日:2021-01-20

    Abstract: 本发明实施例涉及一种非法集资线索识别方法、装置、电子设备及存储介质,所述方法包括:获取多个待进行非法集资线索识别的目标文本数据;基于预设的线索特征规则库从多个所述目标文本数据中确定疑似非法集资线索数据;将所述疑似非法集资线索数据输入至至少一个已训练的非法集资线索分类模型,得到至少一个预测参数;依据所述疑似非法集资线索数据与所述疑似非法集资线索数据对应的至少一个所述预测参数构建非法集资线索数据库。由此,可以提高从海量互联网数据中筛选非法集资线索数据的效率,以及提高最终筛选出的非法集资线索数据的准确性、全面性。

Patent Agency Ranking