专利文本中的领域命名实体识别方法、装置、介质及设备

    公开(公告)号:CN114444470A

    公开(公告)日:2022-05-06

    申请号:CN202210081976.0

    申请日:2022-01-24

    摘要: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。

    基于长文档的问答方法、装置、存储介质及设备

    公开(公告)号:CN117216208A

    公开(公告)日:2023-12-12

    申请号:CN202311125882.X

    申请日:2023-09-01

    摘要: 本申请公开了一种基于长文档的问答方法、装置、存储介质及设备,属于机器学习技术领域。所述方法包括:按照不同切分长度分别对长文档进行切分,将每个切分长度对应的多个切块组成一个切块向量数据库;获取用户输入的提问文本;从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库;根据提问文本和切块向量数据库生成提示词;将提示词输入训练后的大语言模型,将大语言模型的输出结果确定为提问文本的回答。本申请可以在与提问文本的长度更相近的某一个切块向量数据库里查找切块,解决了提问文本的长短不确定,可能导致语义检索的定位不准确的问题,使得问答结果更准确。

    专利文本中的领域命名实体识别方法、装置、介质及设备

    公开(公告)号:CN114444470B

    公开(公告)日:2022-12-02

    申请号:CN202210081976.0

    申请日:2022-01-24

    摘要: 本申请公开了一种专利文本中的领域命名实体识别方法、装置、介质及设备,属于计算机技术领域。所述方法包括:获取训练数据,训练数据中包含多篇专利文本的至少一个字段和已经标注好的领域命名实体;利用训练数据对BART预训练模型进行训练;根据预设的Prompt模板和训练数据生成Prompt数据,其中,Prompt模板是针对同一专利领域中领域命名实体的特点创建的,且不同专利领域的Prompt模板不同;利用Prompt数据对训练后的BART模型进行调优,得到领域命名实体识别模型;利用领域命名实体识别模型识别各个专利文本中的领域命名实体。本申请既降低了专利文本中的领域命名实体的识别难度,也提高了识别的准确率。

    基于长文档的问答方法、装置、存储介质及设备

    公开(公告)号:CN117216208B

    公开(公告)日:2024-08-20

    申请号:CN202311125882.X

    申请日:2023-09-01

    摘要: 本申请公开了一种基于长文档的问答方法、装置、存储介质及设备,属于机器学习技术领域。所述方法包括:按照不同切分长度分别对长文档进行切分,将每个切分长度对应的多个切块组成一个切块向量数据库;获取用户输入的提问文本;从多个切块向量数据库中查找与提问文本的长度相匹配的一个切块向量数据库;根据提问文本和切块向量数据库生成提示词;将提示词输入训练后的大语言模型,将大语言模型的输出结果确定为提问文本的回答。本申请可以在与提问文本的长度更相近的某一个切块向量数据库里查找切块,解决了提问文本的长短不确定,可能导致语义检索的定位不准确的问题,使得问答结果更准确。