-
公开(公告)号:CN114444470A
公开(公告)日:2022-05-06
申请号:CN202210081976.0
申请日:2022-01-24
申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC分类号: G06F40/211 , G06F40/295 , G06K9/62
摘要: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。
-
公开(公告)号:CN112257419A
公开(公告)日:2021-01-22
申请号:CN202011227890.1
申请日:2020-11-06
申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC分类号: G06F40/216 , G06F40/30 , G06F40/242 , G06F40/289 , G06K9/62 , G06F16/33
摘要: 本发明提供一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质,对专利数据库中的所有文献进行词袋统计和词向量计算,得到对应的词袋数据和词距离数据;建立模型,输入内容或考题号,在题库数据中获取待审专利的标题、摘要、权利要求书、说明书进行多种组合,并分别根据词袋算法和语义算法进行粗选和细选,针对选择后数据进行文本相似度分析,将分析结果融合排序得到综合相似度,经查重筛选,给出待查专利的可疑答案集合。本发明提升了检索速度,采用两轮筛选,第一轮粗选旨在快速缩小对比范围,第二轮细选旨在兼顾提高准确率;可以有效节省人力和时间,帮助专利审查员缩减相关专利审查范围,提高审查效率。
-
公开(公告)号:CN117216208A
公开(公告)日:2023-12-12
申请号:CN202311125882.X
申请日:2023-09-01
申请人: 北京开普云信息科技有限公司
IPC分类号: G06F16/332 , G06F16/33 , G06F40/211 , G06F40/289 , G06N20/00
摘要: 本申请公开了一种基于长文档的问答方法、装置、存储介质及设备,属于机器学习技术领域。所述方法包括:按照不同切分长度分别对长文档进行切分,将每个切分长度对应的多个切块组成一个切块向量数据库;获取用户输入的提问文本;从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库;根据提问文本和切块向量数据库生成提示词;将提示词输入训练后的大语言模型,将大语言模型的输出结果确定为提问文本的回答。本申请可以在与提问文本的长度更相近的某一个切块向量数据库里查找切块,解决了提问文本的长短不确定,可能导致语义检索的定位不准确的问题,使得问答结果更准确。
-
公开(公告)号:CN114444470B
公开(公告)日:2022-12-02
申请号:CN202210081976.0
申请日:2022-01-24
申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC分类号: G06F40/211 , G06F40/295 , G06K9/62
摘要: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。
-
公开(公告)号:CN117216208B
公开(公告)日:2024-08-20
申请号:CN202311125882.X
申请日:2023-09-01
申请人: 北京开普云信息科技有限公司
IPC分类号: G06F16/332 , G06F16/33 , G06F40/211 , G06F40/289 , G06N20/00
摘要: 本申请公开了一种基于长文档的问答方法、装置、存储介质及设备,属于机器学习技术领域。所述方法包括:按照不同切分长度分别对长文档进行切分,将每个切分长度对应的多个切块组成一个切块向量数据库;获取用户输入的提问文本;从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库;根据提问文本和切块向量数据库生成提示词;将提示词输入训练后的大语言模型,将大语言模型的输出结果确定为提问文本的回答。本申请可以在与提问文本的长度更相近的某一个切块向量数据库里查找切块,解决了提问文本的长短不确定,可能导致语义检索的定位不准确的问题,使得问答结果更准确。
-
公开(公告)号:CN112257419B
公开(公告)日:2021-05-28
申请号:CN202011227890.1
申请日:2020-11-06
申请人: 开普云信息科技股份有限公司 , 北京开普云信息科技有限公司
IPC分类号: G06F40/216 , G06F40/30 , G06F40/242 , G06F40/289 , G06K9/62 , G06F16/33
摘要: 本发明提供一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质,对专利数据库中的所有文献进行词袋统计和词向量计算,得到对应的词袋数据和词距离数据;建立模型,输入内容或考题号,在题库数据中获取待审专利的标题、摘要、权利要求书、说明书进行多种组合,并分别根据词袋算法和语义算法进行粗选和细选,针对选择后数据进行文本相似度分析,将分析结果融合排序得到综合相似度,经查重筛选,给出待查专利的可疑答案集合。本发明提升了检索速度,采用两轮筛选,第一轮粗选旨在快速缩小对比范围,第二轮细选旨在兼顾提高准确率;可以有效节省人力和时间,帮助专利审查员缩减相关专利审查范围,提高审查效率。
-
-
-
-
-