一种无中心的分布式存储方法及系统

    公开(公告)号:CN117440003A

    公开(公告)日:2024-01-23

    申请号:CN202310644427.4

    申请日:2023-06-01

    摘要: 本发明提出一种无中心的分布式存储方法和系统,包括:获取包括n个存储节点的分布式存储系统,根据一致性哈希所有存储节点和键值K映射并以数轴的形式排列到哈希空间σ;n个节点将数轴划分为n+1个区间,根据数轴上n个节点之间的距离可以将数轴划分为n个节点对应的近邻空间;键值K对应的数据存储至距键值K哈希距离最短的存储节点。本发明的方法对于无中心分布式系统负载不均和查询性能低下的缺陷做出一定适应场景的优化,其意义不仅在于促进关于分布式存储的研究,为研究者们解决上述问题提供了新的思路,还有助于大数据计算、大数据分析等与分布式存储密切相关的实际场景应用的发展。

    事件论元抽取方法、装置
    94.
    发明公开

    公开(公告)号:CN117149940A

    公开(公告)日:2023-12-01

    申请号:CN202310942975.5

    申请日:2023-07-28

    摘要: 本发明提出一种事件论元抽取方法、装置,方法包含:分别对训练数据、事件类型进行编码,得到触发词上下文语义表示、事件类型的表示,并将两者表示交互,得到含事件类型信息的触发词表示,并预测事件类型;生成对应事件类型的论元抽取问题,并将待抽取文本与论元抽取问题拼接编码,得到标签的上下文语义表示、待抽取句子各个词的上下文语义表示、论元角色的上下文语义表示;将标签的上下文语义表示、待抽取句子中的各个词的上下文语义表示分别与需要抽取的论元角色的上下文语义表示拼接后,输入判别网络,分别得到判别概率、标注概率;结合判别概率和标注概率确定最终论元角色对应的抽取结果。该方法提高了事件抽取性能。

    一种基于微博平台文本特征的社交机器人检测系统及方法

    公开(公告)号:CN116991973A

    公开(公告)日:2023-11-03

    申请号:CN202311091925.7

    申请日:2023-08-29

    摘要: 本发明提供一种基于微博平台文本特征的社交机器人检测系统,所述系统包括:显式文本特征提取模块,用于提取微博平台账号对应的账号元信息文本与原发评论转发文本对应的显式文本特征;隐式文本特征提取模块,用于提取微博平台账号对应的账号元信息文本与原发评论转发文本对应的隐式文本特征;深层文本语义特征提取模块,用于对微博平台账号对应的账号元信息文本与原发评论转发文本进行情感检测、立场检测、垃圾内容检测、昵称检测和文本生成检测以获取对应的深度文本语义特征;社交机器人判定模块,用于将显式文本特征、隐式文本特征、深度文本语义特征拼接以得到融合特征,并根据融合特征判断微胖平台账号是否是社交机器人。

    一种稠密多部子图的检测方法及系统

    公开(公告)号:CN111291229B

    公开(公告)日:2023-10-31

    申请号:CN202010071390.7

    申请日:2020-01-21

    摘要: 本发明提出一种基于稠密多部子图的检测方法及系统,包括:步骤1、根据链式特征中的信息流动,构建交易网络的多部图,根据预设的账户间信息流动阈值筛选该多部图,得到该多部图中的稠密子图;步骤2、以固定账户存在超阈值的信息流且在中间账户中保留低于阈值的权重为约束条件,生成该稠密子图中节点子集的异常值;步骤3、根据该异常值,输出该多部图中存在异常行为的节点子集作为异常行为检测结果。本发明通过具有有效性和鲁棒性和良好的可扩展性。

    一种命名实体识别模型的训练方法及命名实体识别的方法

    公开(公告)号:CN111738004B

    公开(公告)日:2023-10-27

    申请号:CN202010546972.6

    申请日:2020-06-16

    IPC分类号: G06F40/295

    摘要: 本发明实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明利用训练集训练BERT‑CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。

    一种基于中间人的互联网数据采集方法及系统

    公开(公告)号:CN110781367B

    公开(公告)日:2023-10-20

    申请号:CN201910909270.7

    申请日:2019-09-25

    IPC分类号: G06F16/951 G06F16/955

    摘要: 本发明提出一种基于中间人的互联网数据采集方法及系统,包括:通过安装中间人代理证书至网页信息采集设备,建立网页信息采集设备的中间人,网页信息采集设备访问互联网中网页信息时,中间人代理网页信息采集设备的全部网络流量;中间人获取包含待采集网页URL正则表达式的采集任务,捕获全部网络流量中符合URL正则表达式的流量,作为中间流量,并将采集任务注入中间流量的HTML页面中,得到待解析页面并将其存入第一数据库;解析模块根据第一数据库中待解析页面的URL信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。本发明能够支持所有依靠集成浏览器内核功能来提供信息的应用的数据采集。

    一种推荐系统流行度去偏方法和系统、存储介质

    公开(公告)号:CN116664226A

    公开(公告)日:2023-08-29

    申请号:CN202310504694.1

    申请日:2023-05-06

    摘要: 本发明提供一种推荐系统流行度去偏方法和系统、存储介质,包括:数据集处理步骤,对商品i的交互记录进行随机采样划分,得到所述的训练集验证集和测试集推荐模型预训练步骤,使用该训练集预训练基于协同过滤模型的推荐模型,预训练选用协同过滤推荐系统常用的训练损失函数;推荐模型去偏训练步骤,对预训练完成的推荐模型,使用去偏损失函数完成去偏训练;推荐步骤,对于系统中的任意用户,模型预测该用户对系统中全部商品的偏好分数,并在该用户未交互过的商品中选择预测的偏好分数最高的若干个商品,作为给该用户的推荐结果。

    一种构建共指消解模型的方法、共指消解的方法和介质

    公开(公告)号:CN111967258B

    公开(公告)日:2023-07-21

    申请号:CN202010667443.1

    申请日:2020-07-13

    IPC分类号: G06F40/289 G06F40/216

    摘要: 本发明实施例提供了一种构建共指消解模型的方法、共指消解的方法和介质,所述方法包括A1、构建初始共指消解模型,所述初始共指消解模型包括预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,所述预训练模块采用预训练的XLNet模型,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络;A2、获取包括多个句子的训练数据集,所述训练数据集带有人工标注的共指关系;A3、用所述训练数据集对初始共指消解模型进行多轮训练至其收敛获得共指消解模型。本发明实施例的技术方案可以提升共指消解过程对于长距离依赖的共指关系的判断性能。