长文档跨语言摘要生成及模型训练方法、装置及相关设备

    公开(公告)号:CN117787294A

    公开(公告)日:2024-03-29

    申请号:CN202311754187.X

    申请日:2023-12-19

    Abstract: 本申请公开了一种长文档跨语言摘要生成及模型训练方法、装置及相关设备,基于不同领域间跨语言摘要生成任务的相似性,将长文档跨语言摘要生成模型在数据量充足的源域上进行训练,然后让模型在数据稀缺的目标域上进行微调学习,在目标域训练数据不足时,实现了长文档跨语言摘要模型端到端的训练过程。训练分为两个阶段,第一阶段按照第一训练任务训练长文档跨语言摘要模型,第一训练任务包括两类子任务,分别为在源域上进行跨语言摘要生成任务的训练,以及在目标域上进行单语种摘要生成和摘要翻译的训练;第二阶段按照第二训练任务对模型进行微调训练,第二训练任务包括在目标域上进行跨语言摘要生成任务的训练。

    一种地址标准化方法、装置、存储介质及设备

    公开(公告)号:CN117763072A

    公开(公告)日:2024-03-26

    申请号:CN202311825367.2

    申请日:2023-12-27

    Abstract: 本申请公开了一种地址标准化方法、装置、存储介质及设备,该方法包括:首先将目标非标准化地址划分为地址信息部分和描述信息部分;然后利用预先构建的标准化POI数据库,生成地址信息部分对应的坐标信息;接着提取描述信息部分中与空间地理位移相关的描述信息,并利用其对坐标信息进行地理位移校正,得到校正后的坐标信息。再提取描述信息部分中的兴趣点名称信息,并利用其和校正后的坐标信息,与标准化POI数据库中存储的候选地址向量进行匹配,判断是否存在匹配成功的候选地址向量,若存在,则将该候选地址向量所对应的标准化地址作为地址标准化结果;若不存在,则通过地址信息融合的方式,生成地址标准化结果。从而能够提高地址标准化的准确率。

    文本要素提取方法、装置、电子设备及存储介质

    公开(公告)号:CN114266238A

    公开(公告)日:2022-04-01

    申请号:CN202111530417.5

    申请日:2021-12-14

    Abstract: 本发明提供一种文本要素提取方法、装置、电子设备及存储介质,其中方法包括:确定待识别文本;对所述待识别文本中的每个子句进行要素粒度分类,得到所述每个子句的要素粒度类型,所述要素粒度类型为句粒度或词粒度;基于所述每个子句的要素粒度类型,对所述待识别文本进行要素提取,得到目标要素文本。本发明提供的方法、装置、电子设备及存储介质,能够通过对待识别文本中的每个子句进行词粒度和句粒度的分类,每个子句通过其对应的粒度类型进行要素提取,得到目标要素文本,实现了基于使用词粒度结合句粒度对文本进行非连续要素提取,在保证识别准确率的同时,还提高了识别的时效性,进而提高了要素提取的准确率和时效性。

    要素抽取方法、装置、电子设备和存储介质

    公开(公告)号:CN114238550A

    公开(公告)日:2022-03-25

    申请号:CN202111538301.6

    申请日:2021-12-15

    Abstract: 本发明提供一种要素抽取方法、装置、电子设备和存储介质,其中方法包括:获取待抽取文本,以及待抽取文本的词汇集合;基于待抽取文本中每两个字符对应的字符串与词汇集合间的匹配结果,确定每两个字符间的相关度,字符串以对应两个字符为起终点在待抽取文本中截取得到;基于每两个字符间的相关度,对待抽取文本中的各字符进行编码,得到各字符的要素边界特征;基于各字符的要素边界特征,确定待抽取文本的要素抽取结果。本发明提供的要素抽取方法、装置、电子设备和存储介质,不需要将匹配到的词汇与原始句子进行拼接,不会改变原有的输入长度,从而提高了编码效率。此外,相较于现有词汇拼接的方法,节约了存储空间。

Patent Agency Ranking