-
公开(公告)号:CN109902303A
公开(公告)日:2019-06-18
申请号:CN201910158600.3
申请日:2019-03-01
申请人: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学(深圳)
摘要: 本发明实施例公开了一种实体识别方法及相关设备,包括:首先获取多条标注语料,所述多条标注语料中每条标注语料携带标注信息;接着按照预设的实体标注规则建立超图模型;然后根据标注信息和实体标注规则确定每条标注语料对应的标注路径图、以及根据超图模型和预设的神经网络模型建立待训练模型;最后将标注路径图输入待训练模型中进行训练,得到实体识别模型,并根据实体识别模型,识别输入语料中的至少一个命名实体。采用本发明实施例,可以有效识别嵌套结构的实体,从而提高实体识别和实体抽取的准确性。
-
公开(公告)号:CN109885702A
公开(公告)日:2019-06-14
申请号:CN201910146893.3
申请日:2019-02-27
申请人: 哈尔滨工业大学(深圳) , 腾讯科技(深圳)有限公司
摘要: 本申请是关于一种自然语言处理中的序列标注方法,该方法包括:获取文本序列,将文本序列输入序列标注模型,获得目标路径,目标路径中的每一个节点是预设标签集中的一个标签,预设标签集中包含m种编码模式对应的各个标签;将目标路径中的各个节点按照在目标路径中从先到后的顺序排列,获得文本序列对应的标注序列。本申请根据多种编码模式对文本序列样本编码的结果进行训练获得序列标注模型,并通过该序列模型标签对输入的文本序列进行处理,输出该文本序列对应的标注序列,使得文本序列的标注不局限于单个编码模式,从而提高了序列标注模型对不同输入的普适性,提高序列标注的效果。
-
公开(公告)号:CN109408563A
公开(公告)日:2019-03-01
申请号:CN201811320172.1
申请日:2018-11-07
申请人: 哈尔滨工业大学(深圳) , 腾讯科技(深圳)有限公司
IPC分类号: G06F16/2458
摘要: 本申请公开了一种高平均效用项集挖掘方法、装置及计算机设备,在该方法中,如果累计插入数据库的所有事务的总效用值小于效用安全值,则确定当前数据库中尚未被挖掘处理的数据集合所包含的各个1-项集的平均效用列表,并获取存储的原始数据库中具备项集扩展条件的至少一个1-项集的平均效用列表;依据数据集合中各个1-项集的平均效用列表和该原始数据库中具备项集扩展条件的至少一个1-项集的平均效用列表,确定该数据库中的高平均效用项集。本申请的方案可以降低从数据库中挖掘数据所需耗费的计算资源。
-
公开(公告)号:CN108009180A
公开(公告)日:2018-05-08
申请号:CN201610969804.1
申请日:2016-10-28
申请人: 哈尔滨工业大学深圳研究生院 , 腾讯科技(深圳)有限公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30
摘要: 本发明实施例提供的高质量模式项集挖掘方法包括:确定待处理项集在事务数据库中的支持度以及所述待处理项集的权重占有度;若所述待处理项集在事物数据库中的支持度不小于预定的最低支持度阈值与所述事务数据库中总事务数量的乘积,且所述待处理项集的权重占有度不小于预定的最小权重占有阈值,则确定所述待处理项集为高质量模式项集。本发明实施例可实现数据项相关的高质量模式项集的挖掘,提升高质量模式项集的挖掘结果的精准性。
-
公开(公告)号:CN107870939A
公开(公告)日:2018-04-03
申请号:CN201610856770.5
申请日:2016-09-27
申请人: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学深圳研究生院
IPC分类号: G06F17/30
CPC分类号: G06F17/30539
摘要: 本申请公开了一种模式挖掘方法及装置,针对获取的候选模式集合,计算其在各事务中的效用值,对于效用值小于设定的效用阀值的事务进行删除,该部分事务的模式效用值过小,删除后可以减少挖掘计算时间,并根据删除后剩余的目标事务的时间属性,确定候选模式的周期值,在该周期值小于等于设定的周期阀值时,将候选模式确定为挖掘结果,保证了挖掘得到的模式的效用值在时间上分布均匀,更加便于精确决策。
-
公开(公告)号:CN107870936A
公开(公告)日:2018-04-03
申请号:CN201610854714.8
申请日:2016-09-27
申请人: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学深圳研究生院
IPC分类号: G06F17/30
CPC分类号: G06F17/30522 , G06F2216/03
摘要: 本发明实施例提供一种数据项相关的高效用项集挖掘方法、装置及数据处理设备,该方法包括:确定待处理项集在事务数据库中的支持度,及所述待处理项集的各数据项在所述事务数据库中的支持度;根据所述待处理项集在事务数据库中的支持度,及所述待处理项集的各数据项在所述事务数据库中的支持度,确定所述待处理项集的项集相关度;确定所述待处理项集的项集效用值;若所述待处理项集的项集效用值不小于设定的最低效用阈值,且所述待处理项集的项集相关度不小于预定的最低相关度阈值,则确定所述待处理项集为数据项相关的高效用项集。本发明实施例可实现数据项相关的高效用项集的挖掘,提升高效用项集的挖掘结果的精准性。
-
公开(公告)号:CN107870913A
公开(公告)日:2018-04-03
申请号:CN201610847309.3
申请日:2016-09-23
申请人: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学深圳研究生院
IPC分类号: G06F17/30
CPC分类号: G06F17/30 , G06F17/30539
摘要: 本发明实施例提供一种有效时间的高期望权重项集挖掘方法、装置及处理设备,该方法包括:确定待处理项集所对应的至少一个目标事务;确定所述待处理项集在不确定数据库中的时间有效值;确定所述待处理项集的期望支持度;将所述待处理项集的期望支持度,和所述待处理项集的项集权重值相乘,确定所述待处理项集的期望权重支持度;如果所述待处理项集在不确定数据库中的时间有效值不小于,预定义的最低时间有效阈值,且所述待处理项集的期望权重支持度,不小于,预定义的最低期望权重阈值和不确定数据库中事务总数的乘积,则确定所述待处理项集为有效时间的高期望权重项集。本发明实施例实现了不确定数据库中有效时间的高期望权重项集的挖掘。
-
公开(公告)号:CN106033447A
公开(公告)日:2016-10-19
申请号:CN201510115234.5
申请日:2015-03-16
申请人: 哈尔滨工业大学深圳研究生院 , 深圳市腾讯计算机系统有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种项集挖掘方法及装置,属于数据挖掘领域。所述方法包括:获取自定义的最小期望支持度μ和最低效用比例ε;计算不确定性数据库D中项集的实际期望支持度expSup和实际效用值u,该项集中包含至少一个数据项;当expSup≥|D|*μ,且u≥总效用值TU*ε时,确定该项集为高概率且高效用项集;TU表示不确定性数据库D中所有数据项的效用之和;|D|表示不确定性数据库D中包含的事务总数。本发明达到了挖掘出的项集效用值较高,且发生概率较大,从而保证挖掘出的项集具有较高的实际使用价值的效果。
-
公开(公告)号:CN104320426A
公开(公告)日:2015-01-28
申请号:CN201410436894.9
申请日:2014-08-29
申请人: 哈尔滨工业大学深圳研究生院 , 深圳市标准技术研究院
CPC分类号: H04L63/064 , H04L67/10
摘要: 本发明涉及一种云环境下的数据分层访问方法及系统,该方法首先为所提供的数据建立系统参数,在将所述提供的数据进行加密后,上传至云端数据服务器,并对存储在云端数据服务器上的所述加密数据进行分层,然后接收用户发出的数据请求,判断所述请求是否满足数据使用权限,满足则向用户发送数据密钥。本发明的技术方案解决了云环境下的有时限的分层密钥分配问题,能够在不安全的云存储环境下提供一种相对安全的数据访问方式。
-
公开(公告)号:CN106033424B
公开(公告)日:2020-04-21
申请号:CN201510106336.0
申请日:2015-03-11
申请人: 哈尔滨工业大学深圳研究生院 , 深圳市腾讯计算机系统有限公司
IPC分类号: G06F16/2458 , G06F16/2455 , G06F9/46
摘要: 本发明公开了一种数据挖掘方法和装置,属于数据挖掘领域。方法包括:扫描事务数据库,得到多个事务以及至少一个项目;获取多个候选项集;对于每个候选项集,根据候选项集中每个项目的权重以及包括候选项集的指定事务的数目,计算候选项集的加权支持度;根据每个指定事务的发生时间,计算候选项集的时效值;判断候选项集的时效值是否大于第一阈值,以及加权支持度是否大于第二阈值;当时效值大于第一阈值且加权支持度大于第二阈值时,将候选项集确定为近期高权重频繁项集。本发明考虑到项集的时效性因素,降低了出现干扰的可能性,且挖掘出的近期高权重频繁项集中的项目之间的关联规则可以准确体现近期的关联规则,提高了准确性和实用性。
-
-
-
-
-
-
-
-
-