-
公开(公告)号:CN111367907B
公开(公告)日:2022-11-15
申请号:CN202010098697.6
申请日:2020-02-18
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/22 , G06F16/242
Abstract: 本发明公开了一种数据检索语句生成方法、装置、电子设备以及计算机可读存储介质。该方法包括:接收数据检索语句生成请求;数据检索语句生成请求包含检索语句模板标识和关键词;响应于检索语句生成请求,从实例池中获取实例作为目标实例;实例池存储有预先设置的实例;调用获取的目标实例执行基于模板引擎的数据检索语句生成方法。采用该方法可以提高数据检索语句的生成效率。
-
公开(公告)号:CN109446215B
公开(公告)日:2022-04-12
申请号:CN201811294114.6
申请日:2018-10-31
Applicant: 北京百分点科技集团股份有限公司
Abstract: 本发明公开了一种基于优先级的实时ID拉通引擎方法,包括如下步骤:S1、ID拉通引擎从kafka中获取实时的消费行为日志数据,并从行为日志数据中提取出所有的ID,然后找到mainID;每条行为日志数据中,mainID将会与除它自己之外的其它ID分别建立ID关系,即每条行为日志数据产出的ID关系的条数为n‑1,n为该行为日志数据中ID的数量;S2、根据步骤S1中生成的ID关系,更新数据库中ID关系的权重;S3、根据ID优先级由高到低的排序,逐级计算当前层级的ID的SuperID归属的变更。使用本发明的用户ID拉通解决方案,可以解决用户ID随着时间推移而变化这一现实问题;同时,准实时的实现(5s内)也可以满足互联网中推荐等其它技术的实时需求。
-
公开(公告)号:CN112732987A
公开(公告)日:2021-04-30
申请号:CN202011642227.8
申请日:2020-12-31
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/904 , G06F16/901 , G06F16/903
Abstract: 本申请公开一种全生命周期数据地图生成系统,由多源异构数据接入任务获取数据源的数据,由数据转换任务、数据治理任务和多样化数据处理脚本任务分别确定第一血缘关系、第二血缘关系和第三血缘关系,由数据源表多维统计任务确定第一数据和第二数据在指定分析维度下的信息;由数据地图生成模块根据该些血缘关系和所述指定分析维度下的信息生成数据地图并展示,从而解决了现有技术中的数据地图生成与展示方式,无法生成并展示不同分析维度下的信息和多源数据之间的血缘关系的问题,有效丰富数据地图的信息展示分析维度,提升数据地图信息的分析结果的适用宽度。本申请还公开一种全生命周期数据地图生成方法。
-
公开(公告)号:CN110162632B
公开(公告)日:2021-04-09
申请号:CN201910414328.0
申请日:2019-05-17
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/35 , G06F40/205 , G06F40/289
Abstract: 本发明公开了一种新闻专题事件发现的方法,主要包括:S1、对每篇给定的新闻文章进行事件主题句识别;S2、对每篇给定的新闻文章进行事件核心元素抽取;S3、利用步骤S2中提取的每篇新闻文章的事件核心元素判别文章相似性。本发明方法基于事件元素抽取(Event extraction)技术、话题追踪检测(Topic Detection and Tracking)、事件关系发现及专题新闻增量追加技术,来实现新闻文本的专题事件发现和聚类,实现新闻文本的基于话题进行专题聚类和发现的方法,使用者无需提供标注训练数据,也无需提供事件类型模板,无需了解相关领域知识,即可实现高质量的专题聚类和事件发现。
-
公开(公告)号:CN110515795B
公开(公告)日:2023-03-28
申请号:CN201910687478.9
申请日:2019-07-29
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F11/30 , G06F16/2458
Abstract: 本申请公开了一种大数据组件的监控方法,以解决现有技术中由于通常需要依赖人工装载和删除监控模块,从而导致监控过程自动化程度较低的问题。方法包括:监听服务器上是否存在待监控的目标组件;所述服务器,用于运行所述待监控的目标组件;若监听到所述服务器上存在待监控的目标组件,则判断可用监控方案列表中是否存在与所述目标组件相匹配的监控方案,所述可用监控方案列表用于存储预先配置的大数据组件监控方案;若是,则获取与所述目标组件相匹配的所述监控方案并加载,以对所述目标组件进行监控。本申请还公开一种大数据组件的监控装置、电子设备及计算机可读存储介质。
-
公开(公告)号:CN110134950B
公开(公告)日:2022-12-06
申请号:CN201910349756.X
申请日:2019-04-28
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种字词结合的文本自动校对方法,首先分别采用如下两种查错方法进行查错:1)基于n‑gram语言模型的查错方法;2)基于lstm语言模型的查错方法;然后将两种方法的查错结果求交集,得到最终的查错结果。本发明方法基于词符嵌入(word embeddings)技术、双向lstm网络、CRF(Conditional Random Field,条件随机场)模型等实现对输入文本进行分词与词性标注,在此基础上基于n‑gram模型、双向lstm语言模型以及规则策略,实现文本中存在的错误查找。
-
公开(公告)号:CN112699691A
公开(公告)日:2021-04-23
申请号:CN202011613464.1
申请日:2020-12-30
Applicant: 北京百分点科技集团股份有限公司
Abstract: 本公开涉及一种翻译模型的生成方法、装置、可读存储介质及电子设备。所述翻译模型包括编码器和解码器,其中,所述编码器包括多个特征提取层,所述方法包括:获取所述编码器的所述多个特征提取层之间的层间注意力模型;根据所述编码器的层间注意力模型,确定编码器解码器的注意力模型;基于所述层间注意力模型和所述编码器解码器的注意力模型,生成所述翻译模型。如此,通过层间注意力模型,综合考虑编码器的每个特征提取层输出的特征向量,使得编码器最终输出的向量包含源语言文本序列更多维度的特征信息,进而使解码器生成的译文更能准确地表达原文含义,即,提高了翻译模型对原文翻译的准确度。
-
公开(公告)号:CN109858041B
公开(公告)日:2023-02-17
申请号:CN201910172675.7
申请日:2019-03-07
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F40/295 , G06F40/242 , G06F16/35 , G06N3/0442 , G06N3/045 , G06N3/0895
Abstract: 本发明公开了一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi‑LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;S4、加入用户自定义词典;S5、使用维特比解码求出序列中的最大概率路径。本发明将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。
-
公开(公告)号:CN112732987B
公开(公告)日:2022-12-06
申请号:CN202011642227.8
申请日:2020-12-31
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/904 , G06F16/901 , G06F16/903
Abstract: 本申请公开一种全生命周期数据地图生成系统,由多源异构数据接入任务获取数据源的数据,由数据转换任务、数据治理任务和多样化数据处理脚本任务分别确定第一血缘关系、第二血缘关系和第三血缘关系,由数据源表多维统计任务确定第一数据和第二数据在指定分析维度下的信息;由数据地图生成模块根据该些血缘关系和所述指定分析维度下的信息生成数据地图并展示,从而解决了现有技术中的数据地图生成与展示方式,无法生成并展示不同分析维度下的信息和多源数据之间的血缘关系的问题,有效丰富数据地图的信息展示分析维度,提升数据地图信息的分析结果的适用宽度。本申请还公开一种全生命周期数据地图生成方法。
-
公开(公告)号:CN110782008B
公开(公告)日:2022-05-13
申请号:CN201910983661.3
申请日:2019-10-16
Applicant: 北京百分点科技集团股份有限公司
Abstract: 本申请实施例公开了一种深度学习模型的训练方法、预测方法和装置,针对人工特征拟合XgBoost模型,并通过XgBoost模型提取特征,将提取的特征输入改进的Transformer模型当中,并进一步进行训练,通过该Transformer模型降低人工特征输入的维度,再将该Transformer输出的特征与BERT模型输出的特征进行连接并共同进行训练。通过这种方法,可以在不损失大量预测精度的基础上,有效地降低人工特征输入的维度,从而有效提高深度迁移学习的预测效果。
-
-
-
-
-
-
-
-
-