-
公开(公告)号:CN115408401A
公开(公告)日:2022-11-29
申请号:CN202211343215.4
申请日:2022-10-31
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/22 , G06F16/2453
Abstract: 本申请涉及一种数据存储方法、装置、计算机设备及存储介质,涉及数据存储技术领域。该方法包括:读取数据表中的表数据;以数据行为单位,将数据表中的表数据转换为行集合;该行集合中包含数据表中各个数据行的目标数据信息,该目标数据信息包含字段名以及字段值;遍历行集合,对行集合中各个数据行的目标数据信息进行同构化处理,获得各个数据行的第一同构化结果;该第一同构化结果中包含字段信息以及字段值信息;基于各个数据行的第一同构化结果进行数据存储。通过上述方法,提供了一种统一的数据存储结构,从而减少了数据表存储过程中数据表结构的复杂性,降低了存储压力,从而提高了数据存储效果。
-
公开(公告)号:CN112541062B
公开(公告)日:2022-11-25
申请号:CN202011364569.8
申请日:2020-11-27
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/216 , G06F40/30
Abstract: 本公开涉及一种平行语料对齐方法、装置、存储介质及电子设备,所述方法包括:确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,在与所述目标搜索范围对对应的文本中确定目标对,确定目标对在待对齐源文本和待对齐目标文本中的位置序号,基于位置序号重新确定新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空,解决了相关技术中对齐效率较低的问题。
-
公开(公告)号:CN112241458B
公开(公告)日:2022-10-28
申请号:CN202011089921.1
申请日:2020-10-13
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/36 , G06F16/35 , G06F40/295
Abstract: 本申请实施例提供了一种文本的知识结构化处理方法、装置、设备和可读存储介质,其中,方法包括:对待处理文本根据业务特征进行分类处理,得到所述待处理文本的业务类型;根据所述待处理文本的业务类型,对所述待处理文本进行实体提取处理,得到所述待处理文本的实体要素;基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对,得到所述待处理文本的知识结构化信息。本申请实施例不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求。
-
公开(公告)号:CN115238798A
公开(公告)日:2022-10-25
申请号:CN202210892527.4
申请日:2022-07-27
Applicant: 北京百分点科技集团股份有限公司
Abstract: 本公开涉及一种用户识别方法、装置、可读存储介质及电子设备,涉及互联网技术领域。该方法包括:将第一用户的第一身份标签,以及第一用户的用户基本特征、用户发文特征与用户传播特征作为训练集,来对不同的分类器进行训练;将第二用户的用户基本特征、用户发文特征与用户传播特征作为测试集,来对该不同的分类器分别进行测试,得到该不同的分类器的测试结果;根据该测试结果与该第二用户的第二身份标签,确定该不同的分类器识别用户的精准率;从多个精准率中,筛选出目标精准率所对应的目标分类器来对不同用户的身份进行识别。使用本公开提出的方法可以识别出社媒机器人,避免设备机器人对正常人类用户的行为造成干扰。
-
公开(公告)号:CN114091439A
公开(公告)日:2022-02-25
申请号:CN202111281258.X
申请日:2021-11-01
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F40/263 , G06F40/284 , G06F40/289 , G06N20/00
Abstract: 本申请公开的汉字混淆集生成方法例如包括:对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及根据所述正例汉字混淆对生成汉字混淆集。将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。
-
公开(公告)号:CN114090746A
公开(公告)日:2022-02-25
申请号:CN202111176483.7
申请日:2021-10-09
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/36
Abstract: 本发明提供一种基于知识图谱的答案查询方法、装置及电子设备。方法包括:获取用户端的提问语句。在已构建的知识图谱中,确定包含提问语句中实体的搜索子图,并根据搜索子图确定由实体指向候选答案的至少两条候选路径。将各候选路径与提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,人工智能模型是基于样本特征向量和对样本特征向量标注有置信度值的标签所训练得到的,样本特征向量是将样本提问语句对应知识图谱的候选路径与样本提问语句中的问题、答案类型进行组合得到的。筛选出置信度值符合预设标准的目标路径,以将目标路径指向的候选答案作为提问语句的最终答案推送给用户端。
-
公开(公告)号:CN109828775B
公开(公告)日:2021-12-07
申请号:CN201811492741.0
申请日:2018-12-06
Applicant: 中国电子进出口有限公司 , 北京百分点科技集团股份有限公司
IPC: G06F8/70 , G06F16/28 , G06F16/2458 , G06F40/58
Abstract: 本发明公开了一种多语言翻译文本内容的WEB管理系统及方法,系统包括Neo4j数据库、Elastic Search搜索服务器、翻译文本内容管理服务器(包括工程创建模块、翻译词条创建模块和支持语言分类管理模块)、WEB前端、WEB APIs中心。本发明充分考虑了开发人员与翻译人员的工作习惯,利用程序解决了两者工作中涉及到的数据转换的问题。对于大量的翻译数据,本发明采用关系型数据库存储,保证的数据存储的安全性与高效性。系统设计上使用了方便的基于浏览器的WEB架构,方便使用,用户不需要特别配置,在线即用。
-
公开(公告)号:CN111428405B
公开(公告)日:2023-07-07
申请号:CN202010202385.5
申请日:2020-03-20
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F30/23
Abstract: 本公开涉及一种细颗粒物浓度仿真方法、装置、存储介质及电子设备。获取第一目标网格区域中各网格对应的参考指标的预设值,其中,所述参考指标包括多个类别的二氧化碳排放指标,所述第一目标网格区域包括目标环境监测站点所在网格周围的r圈网格,r为大于零的自然数;根据所述预设值,通过预设的多层空间贝叶斯网络仿真模型,得到所述目标环境监测站点的细颗粒物浓度仿真结果。这样,可以根据该仿真结果,预估目标环境监测站点的细颗粒物浓度,以便人们提前做好防护措施,避免或减少对人体的危害。另外,基于预估的目标环境监测站点的细颗粒物浓度,还可以评估在该目标环境监测站点的监测区域内设置工厂是否合理,以便做出合理的规划。
-
公开(公告)号:CN115994225B
公开(公告)日:2023-06-27
申请号:CN202310273838.7
申请日:2023-03-20
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/35 , G06F40/186 , G06F18/214 , G06F18/241
Abstract: 本公开涉及一种文本的分类方法、装置、存储介质及电子设备,涉及计算机技术领域,该方法包括:获取目标文本。根据目标文本和目标分类模板,得到目标输入数据,目标分类模板包括目标参数向量和目标自然语言模板,目标参数向量是根据第一训练样本数据对第一预设网络模型训练得到的,第一训练样本数据是标注有类别的样本数据,第一预设网络模型包括预设参数向量和预设分类模型。将目标输入数据输入预设的目标文本分类模型,以得到目标文本分类模型输出的目标文本类别,目标文本分类模型是根据第二训练样本数据对第二预设网络模型训练得到的,第二训练样本数据是未标注类别的样本数据,第二预设网络模型包括目标参数向量和预设分类模型。
-
公开(公告)号:CN116304674A
公开(公告)日:2023-06-23
申请号:CN202310043451.2
申请日:2023-01-29
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F18/214 , G06F18/2415 , G06F16/903 , G06F16/906 , G06F40/284 , G06F40/30 , G06N3/045 , G06N3/08
Abstract: 本发明涉及数据处理领域,提供了一种基于NLP进行敏感数据增强的深度学习方法及装置。主旨在于通过为模型提供大量的额外监督信号,增强了模型对于数据中知识的泛化能力。主要方案包括获取包括至少一种敏感信息实例以及其对应的标签的原始标记训练数据;引入大量的无标注训练数据,即引入没有标记信息的敏感信息实例;通过数据格式匹配获得敏感信息实例伪标记数据;利用语言的组合性,将原始标记训练数据集和伪标记数据进行进一步的组合,获得组合增强数据;搭建和加载机器学习模型;机器学习模型训练过程中引入原始训练数据集、伪标记数据集以及组合增强数据,直至模型收敛。
-
-
-
-
-
-
-
-
-