账号资源管理装置、方法及数据采集系统、方法

    公开(公告)号:CN111083136B

    公开(公告)日:2022-03-08

    申请号:CN201911275230.8

    申请日:2019-12-12

    Abstract: 本公开涉及一种账号资源管理装置、方法及数据采集系统、方法。本公开提供的技术方案,对于每个账号使用不同的固定登录IP、登录Header信息进行模拟登录,在登录后将获得的Cookie信息与所述登录IP和登录Header信息关联存储,以模拟一个用户在一个地方使用固定浏览器上网,避免出现一个账号、cookie对应多个IP及单个IP被大量用户使用的情况,从而避免受到浏览拦截限制。并且,每一账号登录模块与一下载解析服务节点对应且与一组登录IP对应,从而可以通过控制每个下载解析服务节点对应的登录IP分配,以实现控制多个下载解析服务节点的负载均衡。

    一种基于数据湖的查询优化方法、装置及存储介质

    公开(公告)号:CN117667998A

    公开(公告)日:2024-03-08

    申请号:CN202311678652.6

    申请日:2023-12-08

    Abstract: 本发明涉及数据管理和查询优化领域,提供了一种基于数据湖的查询优化方法、装置及存储介质。本发明的目的在于解决数据湖存算分离架构,需要一种技术来减少网络传输带宽消耗,提升查询速度的技术问题。主要方案包括在数据湖中进行数据变化检测,根据数据变化和数据的冷热状态进行数据缓存管理,在查询计划优化阶段利用数据变化和数据缓存的信息,对已经缓存的数据,可以直接从缓存中获取,对于变化的未缓存的数据,从数据湖中查询;对查询结果进行整合,如果查询结果来自缓存,可以直接返回给用户;如果查询结果来自数据湖,需要将其与缓存中的数据合并成结果集返回给查询器,并根据数据的时间戳更新缓存中的最新数据,保证查询结果的准确性。

    一种结合用户行为数据的问答交互方法及装置

    公开(公告)号:CN116244414A

    公开(公告)日:2023-06-09

    申请号:CN202310042356.0

    申请日:2023-01-28

    Abstract: 本发明涉及自然语言处理领域,提供了一种结合用户行为数据的问答交互方法及装置。目的在于解决现有方法中随机性较高的数据未被简化、归类化,从而噪声较大对影响最终结果的准确性。主要方案包括对用户行为数据进行“频率弱化”操作和特征编码操作,生成三分类标签向量。对用户固有的画像数据进行编码,得到用户画像的隐藏向量;对商品信息数据和用户提问数据进行编码,分别得到商品数据隐藏向量和问题隐藏向量。对三分类标签向量、用户画像的隐藏向量、商品数据隐藏向量进行融合特征提取,得到融合隐藏特征向量,然后得到图解码特征向量,对图解码特征向量和问题隐藏向量融合的组合进行指针解码,得到答案关键词,对答案关键词进行模板匹配,得答案。

    一种基于距离聚类的支持多模态的图文检索方法及装置

    公开(公告)号:CN116049450A

    公开(公告)日:2023-05-02

    申请号:CN202310043530.3

    申请日:2023-01-29

    Abstract: 本发明涉及计算机人工智能领域,即计算机视觉、自然语言处理和信息检索结合的领域,尤其涉及一种基于距离聚类的支持多模态的图文检索方法及装置。目的在于解决现有算法需要大量的标注数据和人工操作,而且在图文搜索阶段,遍历所有图文对计算效率会很低的技术问题。主要方案包括获取原图文进行增强后,对增强后的图文数据的局部特征和全局特征,得到图像的编码向量和文本的编码向量;使用计算向量距离的方式构建正负样本;判断文本向量和图像向量是否是对应的;将学习到的文本向量和图像向量分别进行多级聚类,同时保留文本和图像之间的索引,得到图文向量库;将输入的图文,通过编码成向量,然后在图文向量库中检索,得到最终结果。

    一种结合人物面部表情的问答交互方法及装置

    公开(公告)号:CN115984939A

    公开(公告)日:2023-04-18

    申请号:CN202310044717.5

    申请日:2023-01-30

    Abstract: 本发明涉及计算机应用技术领域,提供了一种结合人物面部表情的问答交互方法及装置。目的在于解决已有方案中的直接转码、合并过程会显著影响性能的问题。主要方案包括对用户回答问卷问题时的表情进行采集,得到若干个用户的表情图像,将每一个表情图像的横边和纵边切分,然后进行聚合得到子图像,对所有用户表情子图像进行信息提取,得到表情隐藏表示向量;将使用一个非线性函数进行映射,得到三类情感,得到对应于所有情感类别的分支固定文本,将此固定文本、用户标签和指问卷调查的问题原文使用BERT模型分别进行编码得到隐藏向量,将得到的隐藏向量使用一个权重修改系数和映射到问题空间,能够得到下一个最合适的问题。

    一种支持跨模态的文档预训练模型实现方法及装置

    公开(公告)号:CN115953800A

    公开(公告)日:2023-04-11

    申请号:CN202310044744.2

    申请日:2023-01-30

    Abstract: 本发明涉及信息技术领域,提供了一种支持跨模态的文档预训练模型实现方法及装置。目的在于解决LayoutLMv3无法对任务侧重,导致任务之间互相受到影响,导致正在进行的任务表现不理想。主要方案包括获得预训练文档图像数据;将2D文本位置嵌入、1D文本位置嵌入和掩码后的文本信息嵌入相加,相加的结果作为待融合文本嵌入向量;将2D图像位置嵌入、1D图像位置嵌入和掩码后的图像信息嵌入相加,相加的结果作为待融合图像嵌入向量;待融合图像嵌入向量和待融合文本嵌入向量连接得到多模态融合嵌入向量用于预训练模型训练,通过预训练模型,根据不同的任务类别选择不同的预训练模型在不同的数据集上进行微调训练,得到符合对应任务的模型。

    汉字混淆集生成方法及装置和计算机可读存储介质

    公开(公告)号:CN114091439B

    公开(公告)日:2022-12-27

    申请号:CN202111281258.X

    申请日:2021-11-01

    Abstract: 本申请公开的汉字混淆集生成方法例如包括:对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及根据所述正例汉字混淆对生成汉字混淆集。将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。

Patent Agency Ranking