-
公开(公告)号:CN110795458B
公开(公告)日:2022-04-15
申请号:CN201910950353.0
申请日:2019-10-08
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/2455 , G06F16/248 , G06F9/451
Abstract: 本申请公开了一种交互式数据分析方法、装置、电子设备和计算机可读存储介质。其中,本申请基于用户在前端显示的可视化图表上执行的数据分析选择操作,确定用于数据检索的索引字段以及数据聚合类型;从预设的数据库中检索出与索引字段对应的待分析数据;根据数据聚合类型对该待分析数据进行数据聚合分析;将聚合分析结果展示在所述前端,从而实现基于可视化图表的交互式数据分析,提高数据分析效率。
-
公开(公告)号:CN110633359B
公开(公告)日:2022-03-29
申请号:CN201910832807.4
申请日:2019-09-04
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/332 , G06F40/211 , G06N3/04
Abstract: 本申请实施例公开了一种语句等价性判断方法和装置,所述方法包括:获取待判断等价性的语句;将所述语句输入预先训练的等价性判断模型,所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到;通过所述等价性判断模型对所述语句进行等价性判断,得到等价性判断结果。通过本申请实施例,可以提高语句等价性判断的效率和精确性。
-
公开(公告)号:CN111083136B
公开(公告)日:2022-03-08
申请号:CN201911275230.8
申请日:2019-12-12
Applicant: 北京百分点科技集团股份有限公司
IPC: H04L9/40 , H04L67/1023
Abstract: 本公开涉及一种账号资源管理装置、方法及数据采集系统、方法。本公开提供的技术方案,对于每个账号使用不同的固定登录IP、登录Header信息进行模拟登录,在登录后将获得的Cookie信息与所述登录IP和登录Header信息关联存储,以模拟一个用户在一个地方使用固定浏览器上网,避免出现一个账号、cookie对应多个IP及单个IP被大量用户使用的情况,从而避免受到浏览拦截限制。并且,每一账号登录模块与一下载解析服务节点对应且与一组登录IP对应,从而可以通过控制每个下载解析服务节点对应的登录IP分配,以实现控制多个下载解析服务节点的负载均衡。
-
公开(公告)号:CN117668229A
公开(公告)日:2024-03-08
申请号:CN202311684640.4
申请日:2023-12-08
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/35 , G06F16/33 , G06F18/213
Abstract: 本发明属于信息技术领域,提供了一种元模型自动采集分类管理的方法、装置及存储介质。主旨在于解决以现有元模型无法进行自动采集和分类的问题。主要方案包括通过数据采集、元模型字段生成、元模型生成、元模型分类和模型入库模块等步骤,实现了一种元模型自动采集分类管理的方法。该方法能够提高数据处理的效率和准确性,解决数据源信息复杂、多样化和不精准的问题,为后续分类工作提供基础数据支持。同时,该方案具有可扩展性和可维护性,能够适应不同场景和需求。
-
公开(公告)号:CN117667998A
公开(公告)日:2024-03-08
申请号:CN202311678652.6
申请日:2023-12-08
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/2453 , G06F16/2455
Abstract: 本发明涉及数据管理和查询优化领域,提供了一种基于数据湖的查询优化方法、装置及存储介质。本发明的目的在于解决数据湖存算分离架构,需要一种技术来减少网络传输带宽消耗,提升查询速度的技术问题。主要方案包括在数据湖中进行数据变化检测,根据数据变化和数据的冷热状态进行数据缓存管理,在查询计划优化阶段利用数据变化和数据缓存的信息,对已经缓存的数据,可以直接从缓存中获取,对于变化的未缓存的数据,从数据湖中查询;对查询结果进行整合,如果查询结果来自缓存,可以直接返回给用户;如果查询结果来自数据湖,需要将其与缓存中的数据合并成结果集返回给查询器,并根据数据的时间戳更新缓存中的最新数据,保证查询结果的准确性。
-
公开(公告)号:CN116244414A
公开(公告)日:2023-06-09
申请号:CN202310042356.0
申请日:2023-01-28
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F18/24 , G06F40/30
Abstract: 本发明涉及自然语言处理领域,提供了一种结合用户行为数据的问答交互方法及装置。目的在于解决现有方法中随机性较高的数据未被简化、归类化,从而噪声较大对影响最终结果的准确性。主要方案包括对用户行为数据进行“频率弱化”操作和特征编码操作,生成三分类标签向量。对用户固有的画像数据进行编码,得到用户画像的隐藏向量;对商品信息数据和用户提问数据进行编码,分别得到商品数据隐藏向量和问题隐藏向量。对三分类标签向量、用户画像的隐藏向量、商品数据隐藏向量进行融合特征提取,得到融合隐藏特征向量,然后得到图解码特征向量,对图解码特征向量和问题隐藏向量融合的组合进行指针解码,得到答案关键词,对答案关键词进行模板匹配,得答案。
-
公开(公告)号:CN116049450A
公开(公告)日:2023-05-02
申请号:CN202310043530.3
申请日:2023-01-29
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/383 , G06F16/583 , G06F16/33 , G06F16/332 , G06F16/532 , G06F18/22 , G06F18/23213 , G06F18/214
Abstract: 本发明涉及计算机人工智能领域,即计算机视觉、自然语言处理和信息检索结合的领域,尤其涉及一种基于距离聚类的支持多模态的图文检索方法及装置。目的在于解决现有算法需要大量的标注数据和人工操作,而且在图文搜索阶段,遍历所有图文对计算效率会很低的技术问题。主要方案包括获取原图文进行增强后,对增强后的图文数据的局部特征和全局特征,得到图像的编码向量和文本的编码向量;使用计算向量距离的方式构建正负样本;判断文本向量和图像向量是否是对应的;将学习到的文本向量和图像向量分别进行多级聚类,同时保留文本和图像之间的索引,得到图文向量库;将输入的图文,通过编码成向量,然后在图文向量库中检索,得到最终结果。
-
公开(公告)号:CN115984939A
公开(公告)日:2023-04-18
申请号:CN202310044717.5
申请日:2023-01-30
Applicant: 北京百分点科技集团股份有限公司
IPC: G06V40/16
Abstract: 本发明涉及计算机应用技术领域,提供了一种结合人物面部表情的问答交互方法及装置。目的在于解决已有方案中的直接转码、合并过程会显著影响性能的问题。主要方案包括对用户回答问卷问题时的表情进行采集,得到若干个用户的表情图像,将每一个表情图像的横边和纵边切分,然后进行聚合得到子图像,对所有用户表情子图像进行信息提取,得到表情隐藏表示向量;将使用一个非线性函数进行映射,得到三类情感,得到对应于所有情感类别的分支固定文本,将此固定文本、用户标签和指问卷调查的问题原文使用BERT模型分别进行编码得到隐藏向量,将得到的隐藏向量使用一个权重修改系数和映射到问题空间,能够得到下一个最合适的问题。
-
公开(公告)号:CN115953800A
公开(公告)日:2023-04-11
申请号:CN202310044744.2
申请日:2023-01-30
Applicant: 北京百分点科技集团股份有限公司
IPC: G06V30/42 , G06V30/18 , G06F40/289 , G06V30/19
Abstract: 本发明涉及信息技术领域,提供了一种支持跨模态的文档预训练模型实现方法及装置。目的在于解决LayoutLMv3无法对任务侧重,导致任务之间互相受到影响,导致正在进行的任务表现不理想。主要方案包括获得预训练文档图像数据;将2D文本位置嵌入、1D文本位置嵌入和掩码后的文本信息嵌入相加,相加的结果作为待融合文本嵌入向量;将2D图像位置嵌入、1D图像位置嵌入和掩码后的图像信息嵌入相加,相加的结果作为待融合图像嵌入向量;待融合图像嵌入向量和待融合文本嵌入向量连接得到多模态融合嵌入向量用于预训练模型训练,通过预训练模型,根据不同的任务类别选择不同的预训练模型在不同的数据集上进行微调训练,得到符合对应任务的模型。
-
公开(公告)号:CN114091439B
公开(公告)日:2022-12-27
申请号:CN202111281258.X
申请日:2021-11-01
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F40/263 , G06F40/284 , G06F40/289 , G06N20/00
Abstract: 本申请公开的汉字混淆集生成方法例如包括:对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及根据所述正例汉字混淆对生成汉字混淆集。将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。
-
-
-
-
-
-
-
-
-