专利检索 ap:("北京信立方科技发展股份有限公司") AND inv:"王启超" 第 1 页

1.

发明授权
一种分词检索方法及系统有权

公开(公告)号：CN114153949B

公开(公告)日：2022-12-13

申请号：CN202111512996.0

申请日：2021-12-11

申请人： 北京信立方科技发展股份有限公司

发明人： 付雪林 , 王涛 , 孙思遥 , 邓应来 , 王启超 , 吴邱思 , 安重阳 , 韩啸 , 张葳 , 曾明泉 , 唐海霞 , 赵鑫 , 刘成书

IPC分类号： G06F16/33

摘要： 本申请提供一种分词检索方法及系统。所述方法包括：接收用户输入的检索词；对所述检索词进行单字分词；分别计算每一语料文档的单字相关度；将单字相关度进行叠加生成语料文档的相关度得分；依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。在单领域信息检索平台中，通过单字分词的方式将检索词进行拆分，再计算每一语料文档的单字相关度，通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索，不需要再耗费人工梳理语义模板，降低了单领域信息检索平台的维护成本，同时也实现了单领域信息检索平台的检索功能。

2.

发明授权
文本分类模型的样本构建方法及装置、文本分类方法有权

公开(公告)号：CN115544258B

公开(公告)日：2023-04-07

申请号：CN202211487421.2

申请日：2022-11-25

申请人： 北京信立方科技发展股份有限公司

发明人： 付雪林 , 王涛 , 安重阳 , 韩啸 , 王启超 , 孙思遥 , 李晨晖 , 苏雨辰 , 张葳 , 唐海霞 , 赵鑫

IPC分类号： G06F16/35 , G06F18/214 , G06F18/2431

摘要： 本发明涉及文本处理技术领域，提供一种文本分类模型的样本构建方法及装置、文本分类方法，所述样本构建方法包括：获取初始样本数据；所述初始样本数据包括多个初始文档，以及各所述初始文档的标签数据；所述多个初始文档的标签数据对应多个目标分类；确定任一所述目标分类中的各目标词语对所述目标分类的贡献值；所述目标词语为所述目标分类下的初始文档中的任一词语；根据所述贡献值对所述目标分类下的初始文档进行样本重组，得到目标样本数据。本发明提供的样本构建方法通过计算词语对分类的贡献值，对样本数据进行样本重组，可以平衡各分类下的文本长度、改变不同分类下的样本数据量，从而均衡样本数据的分布，解决样本不均衡的问题。

3.

发明公开
文本分类模型的样本构建方法及装置、文本分类方法有权

公开(公告)号：CN115544258A

公开(公告)日：2022-12-30

申请号：CN202211487421.2

申请日：2022-11-25

申请人： 北京信立方科技发展股份有限公司

发明人： 付雪林 , 王涛 , 安重阳 , 韩啸 , 王启超 , 孙思遥 , 李晨晖 , 苏雨辰 , 张葳 , 唐海霞 , 赵鑫

IPC分类号： G06F16/35 , G06K9/62

摘要： 本发明涉及文本处理技术领域，提供一种文本分类模型的样本构建方法及装置、文本分类方法，所述样本构建方法包括：获取初始样本数据；所述初始样本数据包括多个初始文档，以及各所述初始文档的标签数据；所述多个初始文档的标签数据对应多个目标分类；确定任一所述目标分类中的各目标词语对所述目标分类的贡献值；所述目标词语为所述目标分类下的初始文档中的任一词语；根据所述贡献值对所述目标分类下的初始文档进行样本重组，得到目标样本数据。本发明提供的样本构建方法通过计算词语对分类的贡献值，对样本数据进行样本重组，可以平衡各分类下的文本长度、改变不同分类下的样本数据量，从而均衡样本数据的分布，解决样本不均衡的问题。

4.

发明公开
一种分词检索方法及系统有权

公开(公告)号：CN114153949A

公开(公告)日：2022-03-08

申请号：CN202111512996.0

申请日：2021-12-11

申请人： 北京信立方科技发展股份有限公司

发明人： 付雪林 , 王涛 , 孙思遥 , 邓应来 , 王启超 , 吴邱思 , 安重阳 , 韩啸 , 张葳 , 曾明泉 , 唐海霞 , 赵鑫 , 刘成书

IPC分类号： G06F16/33

摘要： 本申请提供一种分词检索方法及系统。所述方法包括：接收用户输入的检索词；对所述检索词进行单字分词；分别计算每一语料文档的单字相关度；将单字相关度进行叠加生成语料文档的相关度得分；依据所述相关度得分对所述语料文档进行排序以生成第一检索结果。在单领域信息检索平台中，通过单字分词的方式将检索词进行拆分，再计算每一语料文档的单字相关度，通过单字相关度叠加生成的相关度得分对语料文档进行排序。检索过程能够针对数据结构类型多、用户量小、用户类型多且行业跨度大、专业性强的单领域信息检索平台进行精准的检索，不需要再耗费人工梳理语义模板，降低了单领域信息检索平台的维护成本，同时也实现了单领域信息检索平台的检索功能。