-
公开(公告)号:CN114091439B
公开(公告)日:2022-12-27
申请号:CN202111281258.X
申请日:2021-11-01
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F40/263 , G06F40/284 , G06F40/289 , G06N20/00
Abstract: 本申请公开的汉字混淆集生成方法例如包括:对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及根据所述正例汉字混淆对生成汉字混淆集。将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。
-
公开(公告)号:CN115408401A
公开(公告)日:2022-11-29
申请号:CN202211343215.4
申请日:2022-10-31
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/22 , G06F16/2453
Abstract: 本申请涉及一种数据存储方法、装置、计算机设备及存储介质,涉及数据存储技术领域。该方法包括:读取数据表中的表数据;以数据行为单位,将数据表中的表数据转换为行集合;该行集合中包含数据表中各个数据行的目标数据信息,该目标数据信息包含字段名以及字段值;遍历行集合,对行集合中各个数据行的目标数据信息进行同构化处理,获得各个数据行的第一同构化结果;该第一同构化结果中包含字段信息以及字段值信息;基于各个数据行的第一同构化结果进行数据存储。通过上述方法,提供了一种统一的数据存储结构,从而减少了数据表存储过程中数据表结构的复杂性,降低了存储压力,从而提高了数据存储效果。
-
公开(公告)号:CN112541062B
公开(公告)日:2022-11-25
申请号:CN202011364569.8
申请日:2020-11-27
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/216 , G06F40/30
Abstract: 本公开涉及一种平行语料对齐方法、装置、存储介质及电子设备,所述方法包括:确定待对齐源文本和待对齐目标文本的初始化搜索范围对,并将所述初始化搜索范围对作为目标搜索范围对,在与所述目标搜索范围对对应的文本中确定目标对,确定目标对在待对齐源文本和待对齐目标文本中的位置序号,基于位置序号重新确定新的目标搜索范围对,并返回执行步骤所述在与所述目标搜索范围对对应的文本中确定目标对的步骤,直至得到的新的目标搜索范围对均为空,解决了相关技术中对齐效率较低的问题。
-
公开(公告)号:CN112241458B
公开(公告)日:2022-10-28
申请号:CN202011089921.1
申请日:2020-10-13
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/36 , G06F16/35 , G06F40/295
Abstract: 本申请实施例提供了一种文本的知识结构化处理方法、装置、设备和可读存储介质,其中,方法包括:对待处理文本根据业务特征进行分类处理,得到所述待处理文本的业务类型;根据所述待处理文本的业务类型,对所述待处理文本进行实体提取处理,得到所述待处理文本的实体要素;基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对,得到所述待处理文本的知识结构化信息。本申请实施例不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求。
-
公开(公告)号:CN115238798A
公开(公告)日:2022-10-25
申请号:CN202210892527.4
申请日:2022-07-27
Applicant: 北京百分点科技集团股份有限公司
Abstract: 本公开涉及一种用户识别方法、装置、可读存储介质及电子设备,涉及互联网技术领域。该方法包括:将第一用户的第一身份标签,以及第一用户的用户基本特征、用户发文特征与用户传播特征作为训练集,来对不同的分类器进行训练;将第二用户的用户基本特征、用户发文特征与用户传播特征作为测试集,来对该不同的分类器分别进行测试,得到该不同的分类器的测试结果;根据该测试结果与该第二用户的第二身份标签,确定该不同的分类器识别用户的精准率;从多个精准率中,筛选出目标精准率所对应的目标分类器来对不同用户的身份进行识别。使用本公开提出的方法可以识别出社媒机器人,避免设备机器人对正常人类用户的行为造成干扰。
-
公开(公告)号:CN114091439A
公开(公告)日:2022-02-25
申请号:CN202111281258.X
申请日:2021-11-01
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F40/263 , G06F40/284 , G06F40/289 , G06N20/00
Abstract: 本申请公开的汉字混淆集生成方法例如包括:对汉字集合中的任意两个汉字进行分别组对得到多个汉字对;构造所述多个汉字对各自对应的混淆特征,其中所述混淆特征包括字形混淆特征和拼音混淆特征;采用预设机器学习模型并根据所述多个汉字对各自对应的所述字形混淆特征和所述拼音混淆特征对所述汉字对进行预测,得到所述多个汉字对的正例汉字混淆对;以及根据所述正例汉字混淆对生成汉字混淆集。将汉字对的字形混淆特征和拼音混淆特征统一在同一个生成方法里,通过机器学习有监督地学习上述混淆特征以预测输入汉字对的混淆情况,从而生成了一个准确率更高且更合理的混淆集。
-
公开(公告)号:CN114090746A
公开(公告)日:2022-02-25
申请号:CN202111176483.7
申请日:2021-10-09
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/36
Abstract: 本发明提供一种基于知识图谱的答案查询方法、装置及电子设备。方法包括:获取用户端的提问语句。在已构建的知识图谱中,确定包含提问语句中实体的搜索子图,并根据搜索子图确定由实体指向候选答案的至少两条候选路径。将各候选路径与提问语句中的问题、答案类型组合成特征向量输入至预先设置的人工智能模型,得到各候选路径的置信度值,人工智能模型是基于样本特征向量和对样本特征向量标注有置信度值的标签所训练得到的,样本特征向量是将样本提问语句对应知识图谱的候选路径与样本提问语句中的问题、答案类型进行组合得到的。筛选出置信度值符合预设标准的目标路径,以将目标路径指向的候选答案作为提问语句的最终答案推送给用户端。
-
公开(公告)号:CN110543549B
公开(公告)日:2022-02-22
申请号:CN201910818133.2
申请日:2019-08-30
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/211 , G06F40/30
Abstract: 本申请公开了语义等价性判断方法及装置。该方法包括:根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量;将第一语句所对应的多个向量与第二语句所对应的多个向量进行匹配,并根据匹配结果生成相似度表示;将相似度表示拼接后通过模型的相似度表示层进行筛选;将筛选结果输入模型的自注意层,并通过自注意层计算自注意力值,自注意力值反映第一语句和第二语句的内部结构;根据自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。由于该方法对多个句子之间语义是否等价的判断结果,相对于现有技术准确性更高,因此能够用于解决现有技术中的问题。
-
公开(公告)号:CN109828775B
公开(公告)日:2021-12-07
申请号:CN201811492741.0
申请日:2018-12-06
Applicant: 中国电子进出口有限公司 , 北京百分点科技集团股份有限公司
IPC: G06F8/70 , G06F16/28 , G06F16/2458 , G06F40/58
Abstract: 本发明公开了一种多语言翻译文本内容的WEB管理系统及方法,系统包括Neo4j数据库、Elastic Search搜索服务器、翻译文本内容管理服务器(包括工程创建模块、翻译词条创建模块和支持语言分类管理模块)、WEB前端、WEB APIs中心。本发明充分考虑了开发人员与翻译人员的工作习惯,利用程序解决了两者工作中涉及到的数据转换的问题。对于大量的翻译数据,本发明采用关系型数据库存储,保证的数据存储的安全性与高效性。系统设计上使用了方便的基于浏览器的WEB架构,方便使用,用户不需要特别配置,在线即用。
-
公开(公告)号:CN109446221B
公开(公告)日:2021-04-30
申请号:CN201811272645.5
申请日:2018-10-29
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/2452 , G06F40/30 , G06F40/284
Abstract: 本发明公开了一种基于语义的交互式数据探查方法,包括如下步骤:S1、采用依存文法对使用者输入的查询语句进行解析,得到依存文法解析结果;S2、采用深度学习算法对原始查询语句进行解析,得到深度学习算法解析结果;S3、对步骤S2中得到的深度学习算法解析结果和步骤S1中得到的依存文法解析结果进行综合,得到数据库查询语句;S4、使用步骤S3中得到的最终的数据库查询语句从数据库中查出数据,最后用ECharts库进行数据可视化展示。和拖拽组件或者编码的方式相比,通过本发明进行数据查探,不再需要额外的操作,只需要输入提问的语句,大大降低了使用门槛。
-
-
-
-
-
-
-
-
-