-
公开(公告)号:CN111126067B
公开(公告)日:2022-02-18
申请号:CN201911342897.5
申请日:2019-12-23
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
摘要: 本发明提供一种实体关系抽取方法及装置,该方法包括:根据训练语料的实体信息和关键词生成正则表达式;将训练语料进行分词获得分词结果;将分词结果转换为向量,并将向量输入神经网络;将向量输入神经网络的第一隐藏层,输出向量集合;根据正则表达式将向量集合输入神经网络的第二隐藏层,输出向量表达式;将向量表达式输入神经网络的输出层,输出实体关系类别的概率;根据实体关系类别的概率对实体信息进行关系抽取。通过利用正则表达式与神经网络相结合的方法对实体信息进行关系抽取,解决了远程监督模型受到噪声数据干扰导致准确率低的问题。
-
公开(公告)号:CN111144101A
公开(公告)日:2020-05-12
申请号:CN201911365839.4
申请日:2019-12-26
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F40/232 , G06F40/211 , G06F40/289
摘要: 本申请实施例提供一种错别字处理方法和装置。所述方法包括:获取待检测语句;根据错词词典的错别字识别和纠正模型,获取所述待检测语句中的第一错别字纠正语句;根据深度学习的错别字识别和纠正模型,获取所述待检测语句中的第二错别字纠正语句;再根据所述第一错别字纠正语句与所述第二错别字纠正语句,来获取所述待检测语句的目标纠正语句,由于目标纠正语句参考了上述两种错别字识别和纠正模型所获取的错别字纠正语句,提高了待检测语句的错别字纠正准确率。
-
公开(公告)号:CN110246049A
公开(公告)日:2019-09-17
申请号:CN201810195950.2
申请日:2018-03-09
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
发明人: 王九硕
摘要: 本发明实施例提供一种话题检测方法、装置、设备及可读存储介质,其中,该方法包括:获取多个时间序列的话题文本;对各时间序列中的话题文本进行话题检测处理,获得各时间序列所对应的话题;基于各时间序列对应的话题,在各时间序列间进行话题追踪处理,获得目标话题,目标话题对应多个时间序列中的至少两个;对各时间序列中包含目标话题的目标话题文本进行特征提取处理,获得各目标话题文本中的表情符号和特征词;将各目标话题文本中的表情符号和特征词输入预设的情感分析模型,获得各目标话题文本包含的情感类型,并基于各目标话题文本之间的时间顺序,确定目标话题的情感变化趋势。本发明实施例能够用于对话题的情感变化趋势进行分析。
-
公开(公告)号:CN108733675A
公开(公告)日:2018-11-02
申请号:CN201710245355.0
申请日:2017-04-14
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明提供了一种基于大量样本数据的情感评价方法和装置,其中,基于大量样本数据的情感评价方法包括:确定样本信息中任意指定领域产品的特征信息;根据特征信息和预设的样本信息训练模型,生成训练数据;根据训练数据和预设的基于增量的文本分类模型,生成不同时间段内的任意指定领域产品的评价信息;采用word2vec对评价信息进行向量化处理,以生成待评价的向量矩阵;将待评价的向量矩阵输入卷积神经网络,以根据卷积神经网络的输出结果,得到评价信息的情感值。通过本发明的技术方案,提高了用户获取特定领域产品评价信息感情值的准确性和有效性,根据获取到的不同产品的评价分析结果,用户能够更好地选择产品或者制定更合理的产品营销手段。
-
公开(公告)号:CN111144101B
公开(公告)日:2021-12-03
申请号:CN201911365839.4
申请日:2019-12-26
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F40/232 , G06F40/211 , G06F40/289
摘要: 本申请实施例提供一种错别字处理方法和装置。所述方法包括:获取待检测语句;根据错词词典的错别字识别和纠正模型,获取所述待检测语句中的第一错别字纠正语句;根据深度学习的错别字识别和纠正模型,获取所述待检测语句中的第二错别字纠正语句;再根据所述第一错别字纠正语句与所述第二错别字纠正语句,来获取所述待检测语句的目标纠正语句,由于目标纠正语句参考了上述两种错别字识别和纠正模型所获取的错别字纠正语句,提高了待检测语句的错别字纠正准确率。
-
公开(公告)号:CN110096664B
公开(公告)日:2021-04-09
申请号:CN201910264123.9
申请日:2019-04-03
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
发明人: 王九硕
IPC分类号: G06F16/958
摘要: 本申请实施例提供一种分布式文本信息处理方法、装置、系统、设备及存储介质,该方法包括:接收客户端发送的文本信息处理请求;对所述文本信息处理请求进行解析,得到解析结果;根据所述解析结果,确定用于存放所述解析结果的目标系统,并将所述解析结果存放至所述目标系统;通过所述目标系统,将所述解析结果对应的文本信息处理任务发送至数据流计算系统;若监控到所述分布式发布订阅消息系统接收到所述处理结果,则从所述分布式发布订阅消息系统中读取所述处理结果,并将所述处理结果反馈至所述客户端。本实施例提供的方法能够克服现有技术已经无法满足针对用户不同的需求对应的不同的数据处理方式,进而解决用户在不同方面的需求的问题。
-
公开(公告)号:CN111126067A
公开(公告)日:2020-05-08
申请号:CN201911342897.5
申请日:2019-12-23
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
摘要: 本发明提供一种实体关系抽取方法及装置,该方法包括:根据训练语料的实体信息和关键词生成正则表达式;将训练语料进行分词获得分词结果;将分词结果转换为向量,并将向量输入神经网络;将向量输入神经网络的第一隐藏层,输出向量集合;根据正则表达式将向量集合输入神经网络的第二隐藏层,输出向量表达式;将向量表达式输入神经网络的输出层,输出实体关系类别的概率;根据实体关系类别的概率对实体信息进行关系抽取。通过利用正则表达式与神经网络相结合的方法对实体信息进行关系抽取,解决了远程监督模型受到噪声数据干扰导致准确率低的问题。
-
公开(公告)号:CN111125344A
公开(公告)日:2020-05-08
申请号:CN201911341008.3
申请日:2019-12-23
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F16/335 , G06F16/36
摘要: 本申请实施例提供的一种相关词推荐方法和装置,该方法包括:获取用户输入的输入语句;获取所述输入语句对应的至少一种维度属性信息;再分别获取每种所述维度属性信息对应的多个语料语句;通过根据所获取的用户所输入的输入语句的地域信息、时间信息以及所述输入语句所属的领域信息对应的多个语料语句,确定每种维度属性信息对应的与所述输入语句相关的推荐词,然后将所述至少一种维度属性信息中每种维度属性信息对应的与所述输入语句相关的推荐词显示输出,使得用户可以从大量的输入语句数据中获取更多符合用户需求的相关词,提高了相关词推荐的准确性。
-
公开(公告)号:CN111125257A
公开(公告)日:2020-05-08
申请号:CN201911353606.2
申请日:2019-12-25
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
摘要: 本发明实施例提供一种词典更新方法、装置、设备和存储介质,该方法包括:对与目标更新任务对应的数据进行组装,生成组装数据,其中,目标更新任务为对目标词典文件中各个词典进行更新的任务,目标更新任务包括增量更新任务和/或全量更新任务;基于组装数据对目标词典文件中各个词典进行更新,并生成各个词典对应的更新状态。根据本发明实施例的技术方案,能够确保客户端与服务器端词典更新的时效性和一致性。
-
公开(公告)号:CN110324278A
公开(公告)日:2019-10-11
申请号:CN201810271423.5
申请日:2018-03-29
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
摘要: 本发明提供一种账号主体一致性检测方法、装置及设备。本发明的方法,通过获取第一账号的关联账号信息和内容数据,以及第二账号的关联账号信息和内容数据;根据第一账号的关联账号信息和内容数据,以及第二账号的关联账号信息和内容数据,计算第一账号和第二账号的综合相似度;根据第一账号和第二账号的综合相似度和预设的相似度阈值,确定第一账号和第二账号是否属于同一个用户主体,能够通过对不同账号的关联账号信息和内容数据的分析可以得出两个账号的综合相似度,并进一步确定不同的互账号是否属于同一用户主体,实现了对互联网账号的关联性的分析,从而可以更好地实现各个用户的用户画像的构建、精准营销、社交网站舆情监控等。
-
-
-
-
-
-
-
-
-