实体识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN115422936A

    公开(公告)日:2022-12-02

    申请号:CN202211032451.4

    申请日:2022-08-26

    发明人: 杨东泉 陈东来

    IPC分类号: G06F40/295

    摘要: 本发明公开了一种实体识别方法、装置、计算机设备及存储介质,该实体识别方法,包括:获取初始识别句子;采用实体识别模型中的目标编码器,对初始识别句子进行实体提取处理,获取至少一个待识别字符串;采用实体识别模型中的目标解码器,对至少一个待识别字符串进行构造处理,获取至少一个待识别句子;计算每一待识别句子对应的概率分布,获取目标识别句子和目标识别句子对应的目标实体类型。本技术方案能够提高对新的实体数据的实体识别能力。

    一种文本关系提取方法、装置、介质及设备

    公开(公告)号:CN118939755A

    公开(公告)日:2024-11-12

    申请号:CN202410956871.4

    申请日:2024-07-16

    发明人: 陈东来

    摘要: 本申请公开了一种文本关系提取方法、装置、介质及设备。其中,方法包括:对目标文本的初始字符串序列中的各字符串进行命名实体识别,获得与所述初始字符串序列对应的、包含目标实体词类别的目标字符串序列;对所述初始字符串序列中的各字符串进行词性标注,获得与所述初始字符串序列对应的、包含各字符串词性的词性序列;基于所述目标字符串序列以及所述词性序列,利用目标神经网络模型进行关系提取,获得与所述目标文本对应的目标关系三元组。本申请,实现了从词性序列以及目标字符串序列两个方面来综合的提取获得目标关系三元组,提高了关系提取/关系抽取的准确度。

    命名实体识别方法、装置、设备、介质和程序产品

    公开(公告)号:CN115563978A

    公开(公告)日:2023-01-03

    申请号:CN202211110090.0

    申请日:2022-09-13

    IPC分类号: G06F40/295 G06N3/08

    摘要: 本申请涉及人工智能技术领域,公开了一种命名实体识别方法、装置、设备、介质和程序产品,用于基于蒸馏学习的模型进行命名实体识别任务。方法部分包括:获取被识别句子;将被识别句子输入已训练得到的目标神经网络模型,得到被识别句子的词语属于第一标签集的各个第一标注标签的第一预测概率值,以及属于第二标签集的各个第二标注标签的第二预测概率值;将第一预测概率值最大的第一标注标签的标签类型作为词语的第一预测标签类型,并将第二预测概率值最大的第二标注标签的标签类型作为词语的第二预测标签类型;根据词语的第一预测标签类型和第二预测标签类型,确定词语的最终预测标签类型。

    基于核主成分分析的问答交互方法、装置及计算机设备

    公开(公告)号:CN114817511B

    公开(公告)日:2022-09-23

    申请号:CN202210732742.8

    申请日:2022-06-27

    发明人: 陈东来

    摘要: 本申请涉及人工智能技术,提供了基于核主成分分析的问答交互方法、装置及设备,是对待答复文本对应进行特征提取后基于核主成分分析降维后得到当前降维张量,再基于当前降维张量在预先存储的降维张量数据库中获取对应的目标降维张量,最后以所述目标降维张量对应的原始文本数据作为回复文本。实现了在计算待答复文本对应进行特征提取和基于核主成分分析降维后得到当前降维张量与在降维张量数据库中各降维张量的相似度时,已将张量降维成统一维度,不存在每个维度上基向量长度不一样的情况,计算的张量之间的余弦相似度结果更准确,所得到与目标降维张量对应的回复文本更加准确。

    基于对比学习的命名实体处理方法、装置、设备及介质

    公开(公告)号:CN117435748B

    公开(公告)日:2024-03-12

    申请号:CN202311758230.X

    申请日:2023-12-20

    发明人: 陈东来

    摘要: 本申请涉及自然语言处理技术领域,公开了一种基于对比学习的命名实体处理方法、装置、设备及存储介质,解决同类实体的不同标注标签可能学到分布相差很大的模型表示,使命名实体识别准确率降低的问题。方法部分包括:对文本进行实体标注,标注后的文本中包括相同语义标签类型的标注元素以及不同语义标签类型的标注元素;用标注后的文本中所有相同语义标签的标注元素之间构造正实体对,不同语义标签的标注元素之间为负实体对;根据正实体对和负实体对,构造每个标注元素的对比学习损失函数训练编码器,直至编码器对应的对比学习损失符合预设损失条件,得到用于对待识别文本进行命名实体识别目标编码器。

    供应链金融资产审核方法、装置、设备及介质

    公开(公告)号:CN115601129A

    公开(公告)日:2023-01-13

    申请号:CN202211156964.6

    申请日:2022-09-21

    发明人: 缪洲 陈东来

    摘要: 本申请涉及人工智能技术,提供了供应链金融资产审核方法、装置、设备及介质,其方法包括:对金融资产图像数据进行图像识别得到每行文本框的位置信息及字符信息;根据识别到的信息对金融资产图像数据进行多模态信息抽取得到目标信息;利用目标信息对金融资产图像数据进行合法性校验;通过合法性校验,则向配置平台发送目标信息;根据配置平台针对目标信息的反馈数据从审核意见集合中查询目标意见;向配置平台发送目标意见;当目标意见被选择时反馈目标意见。本申请能够结合文字识别及多模态信息抽取实现对供应链金融资产的自动校验,提高了校验效率,同时能够生成审核意见,以辅助进行供应链金融资产的审核,提高审核效率。

    数据关联特征分析方法、装置、设备及介质

    公开(公告)号:CN113609204B

    公开(公告)日:2021-12-24

    申请号:CN202111164594.6

    申请日:2021-09-30

    发明人: 陈东来

    IPC分类号: G06F16/25 G06F17/16

    摘要: 本发明公开了数据关联特征分析方法、装置、设备及介质,方法包括:根据数据转换规则对初始样本数据进行转换处理得到样本特征矩阵和样本检测结果矩阵,根据样本特征分析规则及样本检测结果矩阵对样本特征矩阵中每一列样本数据进行特征分析得到对应的特征分布值,对每一列所述样本数据对应的特征分布值进行分布统计得到对应的复合检验值,根据复合检验值从样本特征矩阵中筛选出与关联筛选系数对应的关联列信息。本发明属于大数据分析技术领域,通过上述方法,可根据样本特征分析规则获取特征分布值进行分布统计,根据分布统计得到的复合检验值从样本特征矩阵中筛选出关联列信息,可实现对海量数据信息进行快速分析,以获取到准确关联特征。

    基于对比学习的命名实体处理方法、装置、设备及介质

    公开(公告)号:CN117435748A

    公开(公告)日:2024-01-23

    申请号:CN202311758230.X

    申请日:2023-12-20

    发明人: 陈东来

    摘要: 本申请涉及自然语言处理技术领域,公开了一种基于对比学习的命名实体处理方法、装置、设备及存储介质,解决同类实体的不同标注标签可能学到分布相差很大的模型表示,使命名实体识别准确率降低的问题。方法部分包括:对文本进行实体标注,标注后的文本中包括相同语义标签类型的标注元素以及不同语义标签类型的标注元素;用标注后的文本中所有相同语义标签的标注元素之间构造正实体对,不同语义标签的标注元素之间为负实体对;根据正实体对和负实体对,构造每个标注元素的对比学习损失函数训练编码器,直至编码器对应的对比学习损失符合预设损失条件,得到用于对待识别文本进行命名实体识别目标编码器。

    文本纠错处理方法、模型处理方法、装置、设备及介质

    公开(公告)号:CN116822498A

    公开(公告)日:2023-09-29

    申请号:CN202311100345.X

    申请日:2023-08-30

    发明人: 陈东来

    摘要: 本申请涉及深度学习、自然语言处理技术领域,公开了一种文本纠错处理方法、模型处理方法、装置、设备及介质,用于降低文字识别误判率,方法部分包括:通过目标文本纠错模型的文本纠错模块对识别文本进行文本纠错,得到已纠错文本,目标文本纠错模型通过如下方式训练得到:将训练文本输入到被训练模型的文本纠错模块进行文本纠错处理,得到文本纠错结果;将训练文本输入到被训练模型的错字识别模块进行错字概率识别,得到错字识别结果;根据文本纠错结果和错字识别结果,获取被训练模型的模型总损失;将训练后模型总损失符合预设损失值的被训练模型,作为目标文本纠错模型。

    基于图像处理的文档信息抽取方法、装置、设备及介质

    公开(公告)号:CN114663896B

    公开(公告)日:2022-08-23

    申请号:CN202210533116.6

    申请日:2022-05-17

    发明人: 陈东来

    摘要: 本发明公开了基于图像处理的文档信息抽取方法、装置、设备及介质,方法包括:对信息抽取任务的待处理文档图像进行特征编码得到编码特征信息并进行切分转换得到输入向量集,将输入向量集输入多头自注意力神经网络以计算得到图像权重特征向量,对信息抽取任务中的任务信息与图像权重特征向量组合得到组合特征向量,将图像权重特征向量与组合特征向量同时输入解码器进行向量整合解码得到字符编码序列,对字符编码序列进行解析得到与信息抽取任务对应的文档信息。通过上述方法,将图像分析识别处理与文本信息抽取进行结合,通过调整神经网络及信息抽取任务可用于对各种文档图像进行文档信息抽取,大幅提高了对文档信息进行抽取的效率及灵活性。