-
公开(公告)号:CN114153949B
公开(公告)日:2022-12-13
申请号:CN202111512996.0
申请日:2021-12-11
申请人: 北京信立方科技发展股份有限公司
IPC分类号: G06F16/33
摘要: 本申请提供一种分词检索方法及系统。所述方法包括:接收用户输入的检索词;对所述检索词进行单字分词;分别计算每一语料文档的单字相关度;将单字相关度进行叠加生成语料文档的相关度得分;依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。在单领域信息检索平台中,通过单字分词的方式将检索词进行拆分,再计算每一语料文档的单字相关度,通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索,不需要再耗费人工梳理语义模板,降低了单领域信息检索平台的维护成本,同时也实现了单领域信息检索平台的检索功能。
-
公开(公告)号:CN115544258B
公开(公告)日:2023-04-07
申请号:CN202211487421.2
申请日:2022-11-25
申请人: 北京信立方科技发展股份有限公司
IPC分类号: G06F16/35 , G06F18/214 , G06F18/2431
摘要: 本发明涉及文本处理技术领域,提供一种文本分类模型的样本构建方法及装置、文本分类方法,所述样本构建方法包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。本发明提供的样本构建方法通过计算词语对分类的贡献值,对样本数据进行样本重组,可以平衡各分类下的文本长度、改变不同分类下的样本数据量,从而均衡样本数据的分布,解决样本不均衡的问题。
-
公开(公告)号:CN115544258A
公开(公告)日:2022-12-30
申请号:CN202211487421.2
申请日:2022-11-25
申请人: 北京信立方科技发展股份有限公司
摘要: 本发明涉及文本处理技术领域,提供一种文本分类模型的样本构建方法及装置、文本分类方法,所述样本构建方法包括:获取初始样本数据;所述初始样本数据包括多个初始文档,以及各所述初始文档的标签数据;所述多个初始文档的标签数据对应多个目标分类;确定任一所述目标分类中的各目标词语对所述目标分类的贡献值;所述目标词语为所述目标分类下的初始文档中的任一词语;根据所述贡献值对所述目标分类下的初始文档进行样本重组,得到目标样本数据。本发明提供的样本构建方法通过计算词语对分类的贡献值,对样本数据进行样本重组,可以平衡各分类下的文本长度、改变不同分类下的样本数据量,从而均衡样本数据的分布,解决样本不均衡的问题。
-
公开(公告)号:CN114153949A
公开(公告)日:2022-03-08
申请号:CN202111512996.0
申请日:2021-12-11
申请人: 北京信立方科技发展股份有限公司
IPC分类号: G06F16/33
摘要: 本申请提供一种分词检索方法及系统。所述方法包括:接收用户输入的检索词;对所述检索词进行单字分词;分别计算每一语料文档的单字相关度;将单字相关度进行叠加生成语料文档的相关度得分;依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。在单领域信息检索平台中,通过单字分词的方式将检索词进行拆分,再计算每一语料文档的单字相关度,通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索,不需要再耗费人工梳理语义模板,降低了单领域信息检索平台的维护成本,同时也实现了单领域信息检索平台的检索功能。
-
-
-