-
公开(公告)号:CN113190656B
公开(公告)日:2023-07-14
申请号:CN202110511025.8
申请日:2021-05-11
Applicant: 南京大学
IPC: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/242 , G06F40/295 , G06F18/241 , G06F18/2415 , G06N3/0455 , G06N3/0442 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于多标注框架与融合特征的中文命名实体抽取方法,该首先基于预训练语言模型对汉字进行编码。然后,通过词典匹配为每个汉字引入词信息与分词标记信息,构建词典特征。在此基础上,根据汉字在匹配词中的含义,使用汉语拼音软件对汉字进行注音,构建拼音特征。接着,基于点乘注意力机制融合词典特征与拼音特征到汉字编码中,得到结合词典特征与拼音特征的汉字语义编码,提升对于中文命名实体边界的识别能力。最后,结合序列标注与指标标注的优点,利用多任务学习模型联合学习两种标注任务,提高中文命名实体抽取的准确率。
-
公开(公告)号:CN113190656A
公开(公告)日:2021-07-30
申请号:CN202110511025.8
申请日:2021-05-11
Applicant: 南京大学
IPC: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/242 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多标注框架与融合特征的中文命名实体抽取方法,该首先基于预训练语言模型对汉字进行编码。然后,通过词典匹配为每个汉字引入词信息与分词标记信息,构建词典特征。在此基础上,根据汉字在匹配词中的含义,使用汉语拼音软件对汉字进行注音,构建拼音特征。接着,基于点乘注意力机制融合词典特征与拼音特征到汉字编码中,得到结合词典特征与拼音特征的汉字语义编码,提升对于中文命名实体边界的识别能力。最后,结合序列标注与指标标注的优点,利用多任务学习模型联合学习两种标注任务,提高中文命名实体抽取的准确率。
-
公开(公告)号:CN114722156A
公开(公告)日:2022-07-08
申请号:CN202210477175.6
申请日:2022-05-03
Applicant: 南京大学
IPC: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/295 , G06F40/30
Abstract: 本发明公开了一种基于自对比学习的嵌套关系抽取方法,首先基于预训练语言模型对输入句子进行编码。然后,利用实体级别的注意力机制获取每个实体对应序列片段的语义表示。接着,生成各层的嵌套关系候选三元组。在此基础上,引入嵌套关系三元组的类型特征以及三元组中左右的位置特征与类型特征,并且使用Transformer迭代地进行关系三元组表示与分类后实现嵌套关系抽取。最后,结合基于嵌套关系相似度的自对比学习,进行联合训练。本发明增强模型对输入句子中嵌套关系的整体编码表示能力,从而提升模型对嵌套关系抽取的准确性。
-
公开(公告)号:CN118333058A
公开(公告)日:2024-07-12
申请号:CN202410451064.7
申请日:2024-04-15
Applicant: 南京大学
IPC: G06F40/295 , G06F18/214 , G06F18/241 , G06F18/25 , G10L15/02 , G10L15/06
Abstract: 本发明公开了一种语音‑文本多模态中文命名实体识别方法,该方法基于多任务学习,使用语音与文本作为输入。对于语音‑文本输入,首先,对输入的文本和语音进行编码,然后使用带掩码的语音识别辅助任务提取语音的语义特征;接着借助音频文本对齐工具对文本和语音进行对齐并构造掩码,然后通过带掩码的跨模态注意力机制提取字符粒度的语音特征;接着使用语音实体边界识别辅助任务提取语音中的停顿信息;最后通过转换矩阵的方式将提取的语音停顿信息引入到文本的命名实体识别序列标注过程中。本发明通过辅助任务提取了语音中的发音信息和停顿信息,提升了中文命名实体识别的准确性。
-
公开(公告)号:CN115409011A
公开(公告)日:2022-11-29
申请号:CN202211047628.8
申请日:2022-08-30
Applicant: 南京大学
IPC: G06F40/186 , G06F40/289 , G06K9/62 , G06F16/35
Abstract: 本发明公开了一种基于动态提示学习的小样本嵌套关系抽取方法,包括以下步骤:给定嵌套关系任务的原输入句子;经过Prompt模板转换函数得到Prompt输入语句;再输入到预训练语言模型,通过预训练语言模型在语句中的掩码位置预测出标签词;将预测出的标签词转化为对应的嵌套关系任务关系类型标签;迭代地使用Prompt模版将原任务输入句子与每层嵌套关系转化为Prompt输入句子并进行迭代式预测,最终得到所有层次的嵌套关系。本发明通过将嵌套关系抽取任务转化为掩码语言模型任务,充分发挥预训练模型和提示学习在小样本场景下的有效性,提升模型在小样本场景下的嵌套关系抽取准确性。
-
-
-
-