-
公开(公告)号:CN110472229B
公开(公告)日:2022-09-09
申请号:CN201910625223.X
申请日:2019-07-11
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
摘要: 本发明实施例涉及自然语言处理技术领域,提供一种序列标注模型训练方法、电子病历处理方法及相关装置,所述方法包括:获得样本序列和样本序列的标准标签序列;将样本序列输入预先建立的序列标注模型,利用序列标注模型的初始特征网络获得样本序列的初始向量序列;将初始向量序列输入序列标注模型的特征提取网络,采用注意力机制得到特征序列;将特征序列输入序列标注模型的标签预测网络,得到样本序列的训练标签结果;基于训练标签结果和标准标签序列,对序列标注模型进行迭代修正,得到训练后的序列标注模型。本发明实施例引入注意力机制可以更好的学习序列中的长距离特征信息,从而
-
公开(公告)号:CN110688482B
公开(公告)日:2022-07-12
申请号:CN201910868502.9
申请日:2019-09-12
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
IPC分类号: G06F16/35 , G06K9/62 , G06V10/774 , G06V10/771 , G06N3/04
摘要: 本申请提供一种多标签识别方法、训练方法及装置,涉及机器学习技术领域。该方法包括:对待识别内容进行特征提取,得到待识别内容的特征向量;使用多个分类模型分别对所述待识别内容的特征向量进行分类,获得各所述分类模型输出的各标签的分类概率,每个分类模型对应一个标签;所述标签的分类概率用于指示所述待识别内容的特征向量分类为所述标签的概率;根据标签依赖矩阵及各所述标签的分类概率,确定所述待识别内容的标签序列,其中,所述标签依赖矩阵包含各标签之间具有依赖关系的权重。本申请可提高标签识别准确度。
-
公开(公告)号:CN109829162B
公开(公告)日:2022-04-08
申请号:CN201910094380.2
申请日:2019-01-30
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
IPC分类号: G06F40/289 , G06F16/33 , G06K9/62
摘要: 本申请提供了一种文本分词方法及装置,其中,该方法包括:将待分词文本转换为字符序列;将字符序列中包含的满足预设长度的字符串与预先构建的词典中的标准词进行匹配,确定与标准词匹配的匹配字符串,为字符序列中匹配字符串的每个字符和除匹配字符串之外的每个字符分别分配对应的词典标签,得到词典标签序列;确定字符序列中每个字符对应的至少一种分词标签,得到多种分词标签序列;根据字符序列、词典标签序列以及预先训练的条件概率预测模型,确定字符序列被标记为每种分词标签序列的条件概率;将符合预设条件的条件概率对应的分词标签序列确定为目标分词标签序列,并基于目标分词标签序列对待分词文本进行分词处理。
-
公开(公告)号:CN110459282B
公开(公告)日:2021-03-09
申请号:CN201910625236.7
申请日:2019-07-11
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
摘要: 本发明实施例涉及自然语言处理技术领域,提供一种序列标注模型训练方法、电子病历处理方法及相关装置,在训练预先建立的序列标注模型时,通过初始特征层输出训练样本的特征向量序列后,先将特征向量序列输入第一循环神经网络层得到特征序列,再将特征序列输入注意力层得到语义序列。也就是,先采用第一循环神经网络层捕捉序列的上下文信息,再引入注意力层进一步学习序列中的长距离特征信息,这样在利用训练得到的序列标注模型进行序列标注时,能够有效提高准确度。
-
公开(公告)号:CN112131386A
公开(公告)日:2020-12-25
申请号:CN202011001048.6
申请日:2020-09-22
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
IPC分类号: G06F16/35 , G06F40/284 , G06F40/216
摘要: 本发明实施例提供了一种文本分类方法及装置,涉及数据处理技术领域,其中,上述方法包括:获得文本的特征和文本中词汇的特征;获得词汇在文本中出现的次数,并根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息;以文本和词汇为节点,且以文本的特征和词汇的特征为节点数据,根据上述描述信息,生成图;根据所生成的图以及预设的注意力参数,基于图注意力机制,对图中节点对应的文本的特征和词汇的特征进行调整;根据调整后的文本的特征和词汇的特征,对文本进行分类。应用本发明实施例提供的方案可以对文本进行分类。
-
公开(公告)号:CN110472063A
公开(公告)日:2019-11-19
申请号:CN201910629775.8
申请日:2019-07-12
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
摘要: 本发明实施例涉及自然语言处理技术领域,提供一种社交媒体数据处理方法、模型训练方法及相关装置,先将获取到的社交媒体数据预处理为多个待识别序列;再将每一待识别序列输入训练后的实体识别模型,先利用嵌入层得到待识别序列的嵌入序列,之后将嵌入序列输入动态神经网络层进行多轮特征提取及序列预测,得到动态神经网络层输出的所有实体序列,再根据所有实体序列得到待识别序列中的所有基本实体和嵌套实体;最后依据所有待识别序列对应的实体结果,得到所述社交媒体数据对应的处理结果。与现有技术相比,本发明实施例能够得到社交媒体数据中的所有基本实体和嵌套实体,进而帮助人们快速知晓当前社会的最新动态及热点事件。
-
公开(公告)号:CN110442840A
公开(公告)日:2019-11-12
申请号:CN201910625241.8
申请日:2019-07-11
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
摘要: 本发明实施例涉及自然语言处理技术领域,提供一种序列标注网络更新方法、电子病历处理方法及相关装置,所述方法包括:获取待训练序列和待训练序列的标注序列;将待训练序列输入预先构建的序列标注网络,利用序列标注网络的前处理网络获得待训练序列的嵌入向量序列;将嵌入向量序列输入序列标注网络的语义处理网络,得到待训练序列对应的语义序列;利用序列标注网络的后处理网络对语义序列进行处理,得到待训练序列的预测结果;依据预测结果和标注序列对序列标注网络进行参数更新。与现有技术相比,本发明实施例增加了语义处理网络学习序列的语义信息,能够有效提高序列标注的准确度。
-
公开(公告)号:CN109992667A
公开(公告)日:2019-07-09
申请号:CN201910234804.0
申请日:2019-03-26
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
IPC分类号: G06F16/35
摘要: 本申请提供了一种文本分类方法以及装置,其中,该方法包括:获取待分类文本,确定样本词汇集中每个样本词汇出现在待分类文本中的次数;根据多个文本分类子模型分别使用的样本词汇,将样本词汇分成多个分组;其中,每个分组对应一个文本分类子模型,不同分组中的样本词汇不完全相同;将每个分组中的样本词汇在待分类文本中出现的次数,输入至与各个分组分别对应的文本分类子模型中,得到各个分组对应的子分类结果;基于各个分组对应的子分类结果,确定待分类文本的分类结果。本申请实施例在对文本进行分类时,具有更高的分类精度,满足较高精度的分类需求,进而基于该分类结果进行后续处理时,效率更高。
-
公开(公告)号:CN109859813A
公开(公告)日:2019-06-07
申请号:CN201910093768.0
申请日:2019-01-30
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
摘要: 本申请实施例提供了一种实体修饰词识别方法及装置,包括:将待识别文本转换为词单元序列,得到多个词单元,多个词单元包括实体对应的特征词单元和非实体对应的非特征词单元;为词单元序列中每个词单元分配对应的属性标签,得到属性标签序列;确定词单元序列中每个词单元对应的至少一种修饰词标签,得到多种修饰词标签序列;基于词单元序列、属性标签序列以及预先训练的条件概率预测模型,确定词单元序列被标记为每种修饰词标签序列的条件概率;将符合预设条件的条件概率对应的修饰词标签序列确定为目标修饰词标签序列,并基于目标修饰词标签序列,确定词单元序列中每个特征词单元的修饰词类型。本申请实施例提高了对实体修饰词的识别准确度。
-
公开(公告)号:CN111694957B
公开(公告)日:2024-03-12
申请号:CN202010475172.X
申请日:2020-05-29
申请人: 新华三大数据技术有限公司
发明人: 王李鹏
IPC分类号: G06F16/35 , G06F40/284 , G06F18/2411 , G06F18/22 , G06N3/0464 , G06N3/08
摘要: 本公开提供了一种基于图神经网络的问题单分类方法、设备及存储介质。本公开基于问题单词典生成每个问题单的特征向量作为图数据结构的节点,基于每个问题单的关键词集合计算问题单两两之间的相似性度量值作为图数据结构中节点之间的边,通过图卷积神经网络模型对问题单类型进行预测,在问题单之间具有相互依赖关系的应用场景中,本公开能够提高问题单分类的准确度,更高效的替代人工分析的工作,更精准的实现自动识别的效果。
-
-
-
-
-
-
-
-
-