提示词生成方法及文本处理方法
    1.
    发明公开

    公开(公告)号:CN118655989A

    公开(公告)日:2024-09-17

    申请号:CN202411143879.5

    申请日:2024-08-20

    摘要: 本说明书实施例提供提示词生成方法及文本处理方法,其中所述提示词生成方法包括:响应于针对目标语言模型提交的提示词生成请求确定样本集,并按照预设的分层采样策略对所述样本集进行分层采样处理,根据分层采样处理结果确定多个代表样本;将所述多个代表样本和所述多个代表样本分别对应的结构化提示信息输入提示词生成模型进行处理,获得所述多个代表样本分别对应的初始提示词;在所述多个代表样本分别对应的初始提示词中提取中间提示词,并确定所述中间提示词关联的评估信息;按照所述评估信息优化所述中间提示词,直至获得满足优化停止条件的目标提示词。

    信息抽取方法及装置
    2.
    发明授权

    公开(公告)号:CN116108144B

    公开(公告)日:2023-07-25

    申请号:CN202310371244.X

    申请日:2023-04-10

    摘要: 本申请提供信息抽取方法及装置,其中所述信息抽取方法包括:接收待抽取文档,并基于至少一个待抽取字段在所述待抽取文档中,确定待抽取段落;将所述待抽取段落输入信息抽取模型中,获得所述至少一个待抽取字段对应的信息抽取结果;其中,所述信息抽取模型包括不同字段抽取任务对应的信息抽取单元,各个信息抽取单元共享同一编码层,所述信息抽取单元包括实体抽取单元、关系抽取单元、长描述抽取单元中的至少两项;该种方式不仅能够执行针对多种待抽取字段任务的复杂场景,通过包含多个信息抽取单元的信息抽取模型来实现多任务,还能够减少该模型训练时数据标注量以及降低模型管理与部署成本,提高对文档中结构化信息的抽取效率。

    用于同步数据的方法及设备

    公开(公告)号:CN106844694B

    公开(公告)日:2019-11-15

    申请号:CN201710060080.3

    申请日:2017-01-24

    IPC分类号: G06F16/27

    摘要: 本申请公开一种用于同步数据的方法及设备。该方法包括:根据预定规则对第一数据表进行分组,生成同步组;判断所述同步组中的所述第一数据表的数据量是否超过第一阈值;如果所述同步组中的所述第一数据表的数据量超过所述第一阈值,则将所述第一数据表中的数据进行分组,生成分组数据;以及将所述同步组中的数据和/或所述分组数据并发同步至目标数据库。本申请公开的用于同步数据的方法,能够提升数据同步性能。

    查询语句生成方法及装置
    5.
    发明公开

    公开(公告)号:CN116467499A

    公开(公告)日:2023-07-21

    申请号:CN202310222591.6

    申请日:2023-03-03

    摘要: 本说明书提供查询语句生成方法及装置,其中所述查询语句生成方法包括:对待查询信息进行实体识别,确定待查询信息中的实体和实体的属性信息;从预先构建的查询结构关系图中,筛选属性信息对应的多个候选关联信息,其中,查询结构关系图用于预测待查询信息对应的关联信息;根据待查询信息,从多个候选关联信息中筛选目标关联信息,并基于目标关联信息确定至少一个待查询业务字段;根据实体、属性信息、至少一个待查询业务字段以及至少一个待查询业务字段对应的数据集,生成待查询信息对应的目标查询语句。利用查询结构关系图,准确获得目标关联信息和待查询业务字段,实现了在目标查询语句中注入属性信息的关联知识,提高了目标查询语句的准确性。

    全链路日志的生成方法及相关系统

    公开(公告)号:CN109600254B

    公开(公告)日:2022-04-26

    申请号:CN201811442226.1

    申请日:2018-11-29

    IPC分类号: H04L41/069

    摘要: 本申请提供了一种全链路日志的生成方法及相关系统,其中,全链路日志的生成方法中,在接收到调用请求后,先判断所述调用请求对应的服务是否属于被监控的服务;在判断出所述调用请求对应的服务属于所述被监控的服务,才在所述调用请求对应的服务被调用后,生成链路日志,解决了针对任意一种请求而调用服务时,均生成链路日志导致增加了不必要的链路日志的问题。

    基于汉字音形相似性的拼写纠错方法、装置以及电子设备

    公开(公告)号:CN112883718B

    公开(公告)日:2021-10-22

    申请号:CN202110460497.5

    申请日:2021-04-27

    摘要: 本申请实施例提出了基于汉字音形相似性的拼写纠错方法、装置以及电子设备,包括根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。由于汉字转换成本计算只发生在音形编辑初始过程中,具体过程中不涉及层级间的计算,只需从预先加载的汉字与词典的映射字典取出即可;能够有效降低BK树中文纠错算法从树顶层往下不断对比带来的庞大计算量,提升纠错效率。

    基于汉字音形相似性的拼写纠错方法、装置以及电子设备

    公开(公告)号:CN112883718A

    公开(公告)日:2021-06-01

    申请号:CN202110460497.5

    申请日:2021-04-27

    摘要: 本申请实施例提出了基于汉字音形相似性的拼写纠错方法、装置以及电子设备,包括根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。由于汉字转换成本计算只发生在音形编辑初始过程中,具体过程中不涉及层级间的计算,只需从预先加载的汉字与词典的映射字典取出即可;能够有效降低BK树中文纠错算法从树顶层往下不断对比带来的庞大计算量,提升纠错效率。

    一种模型训练方法、文本相似度确定方法及装置

    公开(公告)号:CN112329430A

    公开(公告)日:2021-02-05

    申请号:CN202110000674.1

    申请日:2021-01-04

    IPC分类号: G06F40/194 G06K9/62

    摘要: 本申请提供一种模型训练方法、文本相似度确定方法及装置,获取用于对文本相似度模型进行训练的文本集合,文本集合包括第一文本组和第二文本组,第一文本组中的各个文本以第一文本标注形式标注,第二文本组中的各个文本以第二文本标注形式标注;采用目标文本标注形式对各个文本进行标注,以统一第一文本组和第二文本组中各个文本的标注形式;基于第一损失函数获取第一文本组的损失值,基于第二损失函数获取第二文本组的损失值;基于第一文本组的损失值和第二文本组的损失值,确定文本集合的损失值;利用文本集合的损失值,调整文本相似度模型的模型参数,以训练文本相似度模型,使得文本相似度模型的训练方法具备更强的兼容性,并提高模型准确度。

    全链路日志的生成方法及相关系统

    公开(公告)号:CN109600254A

    公开(公告)日:2019-04-09

    申请号:CN201811442226.1

    申请日:2018-11-29

    IPC分类号: H04L12/24

    摘要: 本申请提供了一种全链路日志的生成方法及相关系统,其中,全链路日志的生成方法中,在接收到调用请求后,先判断所述调用请求对应的服务是否属于被监控的服务;在判断出所述调用请求对应的服务属于所述被监控的服务,才在所述调用请求对应的服务被调用后,生成链路日志,解决了针对任意一种请求而调用服务时,均生成链路日志导致增加了不必要的链路日志的问题。