文本分类模型的训练方法、文本分类方法及装置

    公开(公告)号:CN115934937B

    公开(公告)日:2024-01-23

    申请号:CN202211511627.4

    申请日:2022-11-29

    IPC分类号: G06F16/35 G06F40/295

    摘要: 本公开提供了一种文本分类模型的训练方法、文本分类方法及装置,涉及人工智能技术领域,尤其涉及自然语言处理、机器学习、知识图谱技术领域。实现方案为:从知识库所包括的多个实体中确定第一文本对应的至少一个目标实体;基于所述至少一个目标实体,生成第二文本;基于第一分类策略,确定所述第二文本所属的第一类别;基于第二分类策略,确定所述第二文本所属的第二类别,所述第二分类策略与所述第一分类策略不同;以及响应于所述第一类别与所述第二类别相同,以所述第二文本和所述第一类别为训练样本,训练文本分类模型。

    分类模型训练、语义分类方法、装置、设备和介质

    公开(公告)号:CN114969326A

    公开(公告)日:2022-08-30

    申请号:CN202210439044.9

    申请日:2022-04-22

    IPC分类号: G06F16/35

    摘要: 本公开提供了一种分类模型训练、语义分类方法、装置、设备和介质,涉及人工智能领域,尤其涉及知识图谱、深度学习和自然语义处理等技术。具体实现方案为:获取样本问询模板和样本问询模板中待预测类别的标签类别;其中,样本问询模板基于样本问询语句和待预测类别的数量构建;将样本问询模板输入至预先构建的语义分类模型,得到待预测类别的样本语义类别;根据样本语义类别和待预测类别的标签类别,训练语义分类模型。根据本公开的技术,提高了模型的通用性,能够应对样本不均衡问题。

    查询处理方法和装置、计算机可读介质

    公开(公告)号:CN109902149B

    公开(公告)日:2021-08-13

    申请号:CN201910130355.5

    申请日:2019-02-21

    发明人: 卢佳俊 林泽南

    IPC分类号: G06F16/33 G06F40/295

    摘要: 本公开提供了一种查询处理方法,包括:根据接收到的包括字符串的查询请求确定查询反馈,基于查询反馈、字符串和预设的知识库确定目标候选实体集合,对目标候选实体集合中的每个目标候选实体进行评估,得到评估结果,基于每个目标候选实体的评估结果,确定每个目标候选实体的类别。实现了精准判断用户输入的查询的类别的技术效果,可减少用户的搜索成本,提高召回率的技术效果。本公开还提供了一种查询处理装置、计算机可读介质。

    语义检索方法、装置、设备以及存储介质

    公开(公告)号:CN112860866A

    公开(公告)日:2021-05-28

    申请号:CN202110186927.9

    申请日:2021-02-09

    发明人: 林泽南 卢佳俊

    摘要: 本申请公开了一种语义检索方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其是知识图谱、深度学习和自然语言处理领域。该方法的一具体实施方式包括:接收查询信息,基于预先构建的知识图谱对查询信息进行序列标注,得到序列标注结果,其中,序列标注结果包括知识图谱既定信息部分及语义检索部分;基于知识图谱构建符合序列标注结果的候选实体集合;将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配,得到语义相关度高于预设阈值的实体集合。该实施方式一种基于知识图谱的语义检索方法,提高了语义检索的效率和准确率,进而提升了用户体验。

    推荐实体的方法和装置、电子设备、计算机可读介质

    公开(公告)号:CN109857873A

    公开(公告)日:2019-06-07

    申请号:CN201910130128.2

    申请日:2019-02-21

    发明人: 卢佳俊 林泽南

    IPC分类号: G06F16/36 G06F17/27

    摘要: 本公开提供了一种推荐实体的方法,其包括:确定请求实体,并确定所述请求实体的至少两个特性,根据所述请求实体的至少两个特性确定与所述请求实体对应的第一向量;确定多个候选实体,并分别确定每个所述候选实体的至少一个特性,分别根据每个所述候选实体的特性确定与该候选实体对应的第二向量;分别确定各所述第二向量与所述第一向量的相似度;根据各所述第二向量与所述第一向量的相似度,从所述多个候选实体中选择至少一个目标实体;推荐所述目标实体。本公开还提供了一种推荐实体的装置、电子设备、计算机可读介质。

    文本事实性校验方法、装置、设备及介质

    公开(公告)号:CN118468846A

    公开(公告)日:2024-08-09

    申请号:CN202410669146.9

    申请日:2024-05-27

    发明人: 林泽南 史亚冰

    摘要: 本公开提供了一种文本事实性校验方法、装置、设备及介质,涉及人工智能领域,具体涉及自然语言处理和大语言模型领域。具体实现方案为:获取待校验文本;在所述待校验文本中识别出至少一个备选实体;对各所述备选实体进行筛选,得到至少一个事实实体;获取各所述事实实体对应的事实标准知识;根据各所述事实标准知识,检测所述待校验文本的事实错误。本公开实施例可以提高文本错误检测准确性和效率。

    信息抽取方法、装置、电子设备以及存储介质

    公开(公告)号:CN116108857B

    公开(公告)日:2024-04-05

    申请号:CN202310121634.1

    申请日:2022-05-30

    摘要: 本公开提供了信息抽取方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及知识图谱、自然语言处理、深度学习等技术领域。具体实现方案为:对待处理文本进行切词,得到词文本序列;对词文本序列进行词类标注,得到与词文本序列相对应的词类标签序列,其中,词类标签序列中的词类标签是按照语义信息和词性信息设置的标签;以及基于词类标签序列,从词文本序列中抽取目标词文本,得到目标信息。

    文本处理方法、用于短文本的链指方法、装置及存储介质

    公开(公告)号:CN114818736B

    公开(公告)日:2023-06-09

    申请号:CN202210612667.1

    申请日:2022-05-31

    IPC分类号: G06F40/30 G06F18/22

    摘要: 本公开提供了一种文本处理方法、用于短文本的链指方法、装置、设备、存储介质以及计算机程序产品,涉及知识图谱、深度学习、自然语言处理等人工智能技术领域。具体实现方案为:为歧义词的每个词义项构建文本数据集,其中,歧义词对应多个词义项;对包含歧义词的短文本进行语义解析,得到多个候选消歧词;将每个候选消歧词分别与每个词义项的文本数据集进行匹配;响应于一个候选消歧词仅与一个词义项的文本数据集匹配成功,将该候选消歧作为相匹配的词义项的目标消歧词;将包含目标消歧词的短文本,保存至相匹配的词义项的消歧文本集。获得的消歧文本集精准且简洁。

    纠错方法和装置、计算机可读介质

    公开(公告)号:CN109885180B

    公开(公告)日:2022-12-06

    申请号:CN201910130735.9

    申请日:2019-02-21

    发明人: 林泽南 卢佳俊

    摘要: 本公开提供了一种纠错方法,该方法包括:基于接收到的查询请求,从预设的字典树中确定多个目标候选实体,计算每个目标候选实体为合法实体的第一概率,对每个目标候选实体进行评估,得到评估的结果,其中,一个目标候选实体对应一个评估的结果,基于第一概率和评估的结果确定查询请求对应的真实意图实体。通过本公开实施例提供的技术方案,避免了现有技术中纠错效果不佳的问题,实现了降低纠错成本,提高纠错效率和准确率的技术效果。本公开还提供了一种纠错装置、计算机可读介质。

    信息抽取方法、装置、电子设备以及存储介质

    公开(公告)号:CN114861677A

    公开(公告)日:2022-08-05

    申请号:CN202210611986.0

    申请日:2022-05-30

    摘要: 本公开提供了信息抽取方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及知识图谱、自然语言处理、深度学习等技术领域。具体实现方案为:对待处理文本进行切词,得到词文本序列;对词文本序列进行词类标注,得到与词文本序列相对应的词类标签序列,其中,词类标签序列中的词类标签是按照语义信息和词性信息设置的标签;以及基于词类标签序列,从词文本序列中抽取目标词文本,得到目标信息。