一种分词检索方法及系统

    公开(公告)号:CN114153949B

    公开(公告)日:2022-12-13

    申请号:CN202111512996.0

    申请日:2021-12-11

    IPC分类号: G06F16/33

    摘要: 本申请提供一种分词检索方法及系统。所述方法包括:接收用户输入的检索词;对所述检索词进行单字分词;分别计算每一语料文档的单字相关度;将单字相关度进行叠加生成语料文档的相关度得分;依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。在单领域信息检索平台中,通过单字分词的方式将检索词进行拆分,再计算每一语料文档的单字相关度,通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索,不需要再耗费人工梳理语义模板,降低了单领域信息检索平台的维护成本,同时也实现了单领域信息检索平台的检索功能。

    文本分类模型的样本构建方法及装置、文本分类方法

    公开(公告)号:CN115544258B

    公开(公告)日:2023-04-07

    申请号:CN202211487421.2

    申请日:2022-11-25

    摘要: 本发明涉及文本处理技术领域,提供一种文本分类模型的样本构建方法及装置、文本分类方法,所述样本构建方法包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。本发明提供的样本构建方法通过计算词语对分类的贡献值,对样本数据进行样本重组,可以平衡各分类下的文本长度、改变不同分类下的样本数据量,从而均衡样本数据的分布,解决样本不均衡的问题。

    文本分类模型的样本构建方法及装置、文本分类方法

    公开(公告)号:CN115544258A

    公开(公告)日:2022-12-30

    申请号:CN202211487421.2

    申请日:2022-11-25

    IPC分类号: G06F16/35 G06K9/62

    摘要: 本发明涉及文本处理技术领域,提供一种文本分类模型的样本构建方法及装置、文本分类方法,所述样本构建方法包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。本发明提供的样本构建方法通过计算词语对分类的贡献值,对样本数据进行样本重组,可以平衡各分类下的文本长度、改变不同分类下的样本数据量,从而均衡样本数据的分布,解决样本不均衡的问题。

    一种分词检索方法及系统

    公开(公告)号:CN114153949A

    公开(公告)日:2022-03-08

    申请号:CN202111512996.0

    申请日:2021-12-11

    IPC分类号: G06F16/33

    摘要: 本申请提供一种分词检索方法及系统。所述方法包括:接收用户输入的检索词;对所述检索词进行单字分词;分别计算每一语料文档的单字相关度;将单字相关度进行叠加生成语料文档的相关度得分;依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。在单领域信息检索平台中,通过单字分词的方式将检索词进行拆分,再计算每一语料文档的单字相关度,通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索,不需要再耗费人工梳理语义模板,降低了单领域信息检索平台的维护成本,同时也实现了单领域信息检索平台的检索功能。