基于语义规则和多维模型的多数据源NL2SQL系统

    公开(公告)号:CN112559550A

    公开(公告)日:2021-03-26

    申请号:CN202011184962.9

    申请日:2020-10-30

    摘要: 本发明公开了一种基于语义规则和多维模型的多数据源NL2SQL系统,包括用于实现NL2SQL的业务层,所述业务层包括:配置模块,用于配置匹配规则;数据模型构建模块,用于构建可利用数据库的表和字段信息生成SQL语句的数据模型;意图识别模块,用于根据所述匹配规则将自然语句解析、匹配得到数据库的表和字段信息,并利用所述数据模型生成可执行的SQL语句。该系统不依赖标注语料和模型,通过界面简单的配置就可以实现基于意图的NL2SQL;通过数据模型构建模块支持多选择嵌套,可以灵活配置;通过意图识别模块降低对数据集的要求,提升SQL生成的成功率。所以,采用本发明提供的系统,能根据不同的项目快速构建业务场景。

    一种图像文档的文本抽取方法、装置及电子设备

    公开(公告)号:CN112036406B

    公开(公告)日:2021-03-02

    申请号:CN202011221190.1

    申请日:2020-11-05

    摘要: 本发明公开了一种图像文档的文本抽取方法、装置及电子设备方法包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。该方法能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。

    一种接口性能测试方法、装置及电子设备

    公开(公告)号:CN111881060B

    公开(公告)日:2021-01-15

    申请号:CN202011036729.6

    申请日:2020-09-28

    IPC分类号: G06F11/36

    摘要: 本发明公开了一种接口性能测试方法、装置及电子设备,其中方法包括:在预设开发环境下,通过客户端接收预设参数,并将所述预设参数发送至服务端;所述服务端根据所述预设参数进行线程管理,并返回线程的数据信息至所述客户端;所述客户端根据所述数据信息计算在预设参数下当前接口的每秒查询率值,并将所述每秒查询率值进行输出;该方法能够实现在接口开发过程中测试接口性能,提高软件的稳定性。

    一种接口性能测试方法、装置及电子设备

    公开(公告)号:CN111881060A

    公开(公告)日:2020-11-03

    申请号:CN202011036729.6

    申请日:2020-09-28

    IPC分类号: G06F11/36

    摘要: 本发明公开了一种接口性能测试方法、装置及电子设备,其中方法包括:在预设开发环境下,通过客户端接收预设参数,并将所述预设参数发送至服务端;所述服务端根据所述预设参数进行线程管理,并返回线程的数据信息至所述客户端;所述客户端根据所述数据信息计算在预设参数下当前接口的每秒查询率值,并将所述每秒查询率值进行输出;该方法能够实现在接口开发过程中测试接口性能,提高软件的稳定性。

    一种维吾尔语实体识别的方法、装置和电子设备

    公开(公告)号:CN111814433A

    公开(公告)日:2020-10-23

    申请号:CN202010840349.1

    申请日:2020-08-20

    摘要: 本发明公开了一种维吾尔语实体识别的方法、装置和电子设备。方法包括:将待识别的维吾尔语语句中的字符转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式;将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;从所述初步实体识别结果中提取实体词;对所述实体词进行去词缀处理,得到最终实体识别结果。本发明能够有效避免维吾尔字符变形带来的语义特征提取的复杂度,完全解决了维吾尔语词级别语言模型的缺陷。

    一种维吾尔语实体识别的方法、装置和电子设备

    公开(公告)号:CN111814433B

    公开(公告)日:2022-02-18

    申请号:CN202010840349.1

    申请日:2020-08-20

    摘要: 本发明公开了一种维吾尔语实体识别的方法、装置和电子设备。方法包括:将待识别的维吾尔语语句中的字符转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式;将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;从所述初步实体识别结果中提取实体词;对所述实体词进行去词缀处理,得到最终实体识别结果。本发明能够有效避免维吾尔字符变形带来的语义特征提取的复杂度,完全解决了维吾尔语词级别语言模型的缺陷。

    基于语义规则和多维模型的多数据源NL2SQL系统

    公开(公告)号:CN112559550B

    公开(公告)日:2021-09-07

    申请号:CN202011184962.9

    申请日:2020-10-30

    摘要: 本发明公开了一种基于语义规则和多维模型的多数据源NL2SQL系统,包括用于实现NL2SQL的业务层,所述业务层包括:配置模块,用于配置匹配规则;数据模型构建模块,用于构建可利用数据库的表和字段信息生成SQL语句的数据模型;意图识别模块,用于根据所述匹配规则将自然语句解析、匹配得到数据库的表和字段信息,并利用所述数据模型生成可执行的SQL语句。该系统不依赖标注语料和模型,通过界面简单的配置就可以实现基于意图的NL2SQL;通过数据模型构建模块支持多选择嵌套,可以灵活配置;通过意图识别模块降低对数据集的要求,提升SQL生成的成功率。所以,采用本发明提供的系统,能根据不同的项目快速构建业务场景。

    一种多层级长文本向量检索方法、装置和电子设备

    公开(公告)号:CN112988952B

    公开(公告)日:2021-08-24

    申请号:CN202110421266.3

    申请日:2021-04-20

    摘要: 本发明公开了一种多层级长文本向量检索方法、装置和电子设备。所述方法包括:将开放领域的长文本切分为文本片段;利用训练好的编码器将所述文本片段和搜索请求分别编码为稠密向量;利用文本片段和搜索请求的稠密向量,基于向量检索,查询得到与所述搜索请求相似的目标文本片段;其中,所述编码器是利用包括多层级文本片段的训练数据集训练得到的。通过考虑训练数据集中的文本片段与搜索请求的多层级相关性,使得得到的模型很容易在多个相关片段中选取到合适的片段,显著提高了召回效率。

    基于复杂数据类型的FAQ知识库自动生成方法和装置

    公开(公告)号:CN112800177A

    公开(公告)日:2021-05-14

    申请号:CN202011637578.X

    申请日:2020-12-31

    摘要: 本发明公开了一种基于复杂数据类型的FAQ知识库自动生成方法和装置。该方法包括:识别文档中不同格式的数据,所述不同格式的数据包括段落型文本数据、普通文本数据和非文本数据;对所述段落型文本数据进行模式识别,生成标题字段和内容字段;对所述非文本数据进行自然语言生成处理,得到自然语言文本;根据所述标题字段和内容字段生成第一问答对集合,根据所述自然语言文本和普通文本数据生成第二问答对集合;将所述第一问答对集合和第二问答对集合加入所述FAQ知识库。采用本发明提供的方案,可以将不同格式的文档数据进行集成整合,生成的问答对可覆盖更全面、更广泛的信息,从而更加适应现实情况中更加灵活多变的问答场景。

    一种语义检索方法、装置及电子设备

    公开(公告)号:CN112035730B

    公开(公告)日:2021-02-02

    申请号:CN202011221206.9

    申请日:2020-11-05

    摘要: 本发明公开了一种语义检索方法、装置及电子设备,方法包括:接收用户发送的查询信息;对查询信息中的文本进行纠错,获得纠正文本;对纠正文本进行用户意图分析,确定所识别的用户意图的第一分值;对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定第二候选答案集中的各个候选答案的第三分值;根据第一分值、第二分值以及第三分值对候选答案进行排序得到答案;该方法相比于基于关键词的检索能更好的满足用户查询需求。