内容爬取方法与装置以及分布式爬虫系统

    公开(公告)号:CN110633429B

    公开(公告)日:2024-09-20

    申请号:CN201810549416.7

    申请日:2018-05-31

    IPC分类号: G06F16/954

    摘要: 本公开提供一种内容爬取方法与装置。内容爬取方法包括:根据多个待爬取网站的地址创建多个爬取进程;在所述爬取进程的爬取结果是网络地址时,根据所述网络地址的地址种类将所述网络地址写入与所述地址种类对应的多个地址队列之一根据所述地址队列创建与所述地址种类对应的爬取进程,重复上一步,直至所述爬取结果是预设内容。本公开提供的内容爬取方法可以均衡负载压力,降低爬取范围扩展难度。

    实时数据统计装置和方法以及计算机可读存储介质

    公开(公告)号:CN110471943B

    公开(公告)日:2024-09-20

    申请号:CN201810434471.1

    申请日:2018-05-09

    IPC分类号: G06F16/2458

    摘要: 本发明公开了一种实时数据统计装置和方法以及计算机可读存储介质,涉及实时数据处理领域。实时数据统计装置包括:一级统计模块,被配置为采用预设的时间粒度对获取的原始数据进行统计,生成包括原始数据中的统计项和统计结果字段的中间统计数据,将中间统计数据写入一级缓存单元中;二级统计模块,被配置为读取多个一级缓存单元中的中间统计数据,将统计项的值相同的中间统计数据写入同一个二级缓存单元中;三级统计模块,被配置为对每个二级缓存单元中的数据进行统计,生成最终统计数据,并将每个二级缓存单元生成的最终统计数据进行持久化存储。本发明通过对数据进行多级处理,实现了数据的均匀多点分布,提高了实时数据统计的效率。

    生成特征向量和基于特征向量进行文本分类的方法和装置

    公开(公告)号:CN110119445B

    公开(公告)日:2024-09-20

    申请号:CN201810034609.9

    申请日:2018-01-15

    IPC分类号: G06F16/35 G06F40/289

    摘要: 本发明公开了一种生成特征向量和基于特征向量进行文本分类的方法和装置,涉及计算机技术领域。该生成特征向量的方法的一具体实施方式包括:获取文本数据的特征权重矩阵和词向量矩阵,特征权重矩阵由文本数据与业务场景类别的关联权重构成;通过对特征权重矩阵与词向量矩阵进行运算以生成特征向量矩阵,特征向量矩阵由特征向量组成。该实施方式能够结合文本数据的全部特征,实现基于业务场景的文本分类,提高了基于不同业务场景的文本分类精度,便于针对不同业务场景提升用户体验。

    一种图片管理方法、装置及系统
    84.
    发明公开

    公开(公告)号:CN118656506A

    公开(公告)日:2024-09-17

    申请号:CN202410920592.2

    申请日:2024-07-10

    摘要: 本发明公开了一种图片管理方法、装置及系统,涉及计算机技术领域。该方法的一具体实施方式包括:在生成合成图之后,将所述合成图的合成图信息写入延迟队列中;所述合成图信息包括合成图标识和过期时间;响应于图片清理请求,根据所述过期时间确定所述延迟队列中的过期合成图;基于所述过期合成图生成应答消息,将所述应答消息返回给图片清理服务,以使图片清理服务清理所述过期合成图;本实施例能够根据合成图的过期时间确定出过期合成图,并对过期合成图进行及时清理,提高了过期合成图的清理效率,降低了存储成本和存储压力。

    用于模型训练的方法、装置、设备和存储介质

    公开(公告)号:CN118609139A

    公开(公告)日:2024-09-06

    申请号:CN202410781073.2

    申请日:2024-06-17

    IPC分类号: G06V30/19 G06V30/18

    摘要: 本公开的实施例提供一种用于模型训练的方法、装置、设备和介质。一种方法包括:利用特征提取模型从与推荐对象相关的训练数据提取第一特征信息,特征提取模型被配置为提取输入数据的特征信息来执行推荐任务;获得与训练数据相关联的训练文本,训练文本包括推荐对象的多个属性类别分别对应的文本;从第一特征信息提取与多个属性类别分别对应的多个第一特征;利用特征提取模型从训练文本提取第二特征信息,第二特征信息包括多个属性类别分别对应的多个第二特征;至少基于多个第一特征与多个第二特征之间的差异,确定训练损失;以及基于训练损失来训练特征提取模型。由此,在对象推荐任务中可以精准提取对象相关数据的表征,从而可以更实现更精确的对象推荐。

    相关性评估模型的训练方法和装置

    公开(公告)号:CN118569408A

    公开(公告)日:2024-08-30

    申请号:CN202410719389.9

    申请日:2024-06-05

    摘要: 本公开的实施例公开了相关性评估模型的训练方法和装置。该方法的一具体实施方式包括:获取用户在物品搜索平台上的历史点击行为数据,其中,历史点击行为数据包括历史搜索关键词和历史点击物品信息;基于历史点击行为数据,生成训练样本集;利用训练样本集对基于转换器的模型进行训练,得到相关性评估模型,其中,相关性评估模型用于评估搜索关键词与对应的搜索结果中的每条物品信息的相关性,且相关性预估模型完全基于自注意力机制,在预估单个词语时聚焦输入序列中的所有词语。该实施方式利用基于转换器的模型训练相关性评估模型,提高了模型的预估效果。

    计费方法和装置
    88.
    发明公开

    公开(公告)号:CN118521359A

    公开(公告)日:2024-08-20

    申请号:CN202310170319.8

    申请日:2023-02-17

    IPC分类号: G06Q30/0283

    摘要: 本公开的实施例公开了计费方法和装置。该方法的具体实施方式包括:接收目标账号的目标任务的计费请求,其中,所述计费请求包括计费参数;对所述计费参数进行解析与校验;若校验通过,则根据所述计费参数判断所述计费请求是否重复;若不重复,则获取计费公式,并获取所述目标任务执行过程中的资源消耗信息;响应于检测到所述目标任务结束,基于所述资源消耗信息通过所述计费公式计算所述目标任务的账单;根据所述账单对所述目标账号的余额进行扣减。该实施方式将业务计费模式与资源计费模式进行整合,能够公平、科学地计费。

    数据保护方法及装置
    89.
    发明公开

    公开(公告)号:CN118520488A

    公开(公告)日:2024-08-20

    申请号:CN202310143894.9

    申请日:2023-02-17

    发明人: 孙林 王畅 孙小朋

    摘要: 本公开提出一种数据保护方法及装置,其中,方法包括:执行客户端发送的查询请求中所携带的连接查询语句,从多个数据表中确定连接查询语句所连接查询的目标数据表,并从目标数据表中获取与连接查询语句匹配的中间数据;根据目标数据表中与连接查询语句中各目标查询语句匹配的目标字段的字段值的敏感度信息,确定连接查询语句对应的目标敏感度信息;在中间数据中添加与目标敏感度信息匹配的差分隐私噪声,得到目标数据,并将目标数据发送至客户端,由此,根据连接查询的目标数据表中与各目标查询语句匹配的目标字段的字段值对中间数据的影响程度,动态的添加差分隐私噪声,实现连接查询的数据的差分隐私保护。