一种语音-文本多模态中文命名实体识别方法

    公开(公告)号:CN118333058A

    公开(公告)日:2024-07-12

    申请号:CN202410451064.7

    申请日:2024-04-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种语音‑文本多模态中文命名实体识别方法,该方法基于多任务学习,使用语音与文本作为输入。对于语音‑文本输入,首先,对输入的文本和语音进行编码,然后使用带掩码的语音识别辅助任务提取语音的语义特征;接着借助音频文本对齐工具对文本和语音进行对齐并构造掩码,然后通过带掩码的跨模态注意力机制提取字符粒度的语音特征;接着使用语音实体边界识别辅助任务提取语音中的停顿信息;最后通过转换矩阵的方式将提取的语音停顿信息引入到文本的命名实体识别序列标注过程中。本发明通过辅助任务提取了语音中的发音信息和停顿信息,提升了中文命名实体识别的准确性。

    一种基于动态提示学习的小样本嵌套关系抽取方法

    公开(公告)号:CN115409011A

    公开(公告)日:2022-11-29

    申请号:CN202211047628.8

    申请日:2022-08-30

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于动态提示学习的小样本嵌套关系抽取方法,包括以下步骤:给定嵌套关系任务的原输入句子;经过Prompt模板转换函数得到Prompt输入语句;再输入到预训练语言模型,通过预训练语言模型在语句中的掩码位置预测出标签词;将预测出的标签词转化为对应的嵌套关系任务关系类型标签;迭代地使用Prompt模版将原任务输入句子与每层嵌套关系转化为Prompt输入句子并进行迭代式预测,最终得到所有层次的嵌套关系。本发明通过将嵌套关系抽取任务转化为掩码语言模型任务,充分发挥预训练模型和提示学习在小样本场景下的有效性,提升模型在小样本场景下的嵌套关系抽取准确性。

    一种基于自引导进化策略的自动化数据增强方法

    公开(公告)号:CN113988309A

    公开(公告)日:2022-01-28

    申请号:CN202111269501.6

    申请日:2021-10-29

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于自引导进化策略的自动化数据增强方法,首先将自动化数据增强问题建模为数据增强策略的最优化搜索问题,然后定义并设计策略向量与数据增强策略的映射转换关系,最后利用自引导进化策略迭代搜索出最优的数据增强策略。本发明相比于以前方法,能够取得更好的深度学习模型预测性能。本发明不仅支持图片数据的数据增强任务,而且支持了音频和文本等媒体数据的数据增强任务。

    在交互式R语言平台中进行并行线性代数计算的方法

    公开(公告)号:CN105389220B

    公开(公告)日:2019-02-15

    申请号:CN201510755923.2

    申请日:2015-11-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于交互式R语言平台的并行化线性代数计算的方法,包括以下步骤:提供两个计算平台,一个是交互式R语言平台,另外一个是并行线性代数计算平台,两个计算平台通过计算机网络进行通信;然后在交互式R语言平台中,设计实现一个并行线性代数计算的应用程序接口;最后在并行线性代数计算的应用程序接口的分布式矩阵类中,包含一个R环境类型的成员变量,并在分布式矩阵类的对象的初始化过程中,通过R语言的reg.finalizer函数向交互式R语言平台的垃圾回收器注册该成员变量的垃圾回收响应方式。本发明解决了现有的交互式R语言编程平台无法进行并行线性代数计算的不足,扩展了交互式R语言平台的计算能力。

    一种LDA主题模型优化采样方法

    公开(公告)号:CN108763207A

    公开(公告)日:2018-11-06

    申请号:CN201810493178.2

    申请日:2018-05-22

    Applicant: 南京大学

    CPC classification number: G06F17/2785

    Abstract: 本发明公开了一种LDA主题模型优化采样方法,包括以下步骤:第一步,确定主题数目,并随机初始化每个单词的主题;第二步,对所有文档构建“词项‑文档”倒排索引;第三步,对吉布斯采样公式进行分解;第四步,确定迭代轮数,分轮迭代。每一轮迭代可分为以下四步:第一步,对采样公式第一部分构建AliasTable;第二步,对采样公式第二部分构建SparseAliasTable;第三步,对采样公式第三部分构建累积分布;第四步,根据采样公式对词项进行采样,得到新的主题并更新主题参数。本发明可以显著降低LDA主题模型采样方法的计算复杂度和采样复杂度,解决了现有采样方法模型学习质量低、模型收敛速度慢等问题。

    一种大规模分布式函数依赖发现方法

    公开(公告)号:CN108595624A

    公开(公告)日:2018-09-28

    申请号:CN201810367758.7

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种大规模分布式函数依赖发现方法,包括以下步骤:第一步,并行地获取数据集的统计信息、对属性进行排序和对数据进行分布式编码;第二步,依次选取属性,将在该属性上取值相同的数据发送到同一个节点上;第三步,在每个节点上进行候选函数依赖发现。该过程可以分为以下两步:第一步,并行地进行采样,利用采样结果对候选集进行剪枝和生成;第二步,并行地对候选集进行验证,利用验证结果对候选集进行剪枝和生成。每轮采样和验证结束后均需根据其效率来决定是否进行采样和验证的切换。第四步,生成函数依赖结果。本发明可高效地实现分布式函数依赖发现,解决现有函数依赖求解方法计算量大、内存占用多、无法处理大规模数据集等问题。

    一种对分布式文件系统进行统一性能测试的方法

    公开(公告)号:CN105808428B

    公开(公告)日:2018-09-14

    申请号:CN201610120973.8

    申请日:2016-03-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种对分布式文件系统进行统一性能测试的方法,具体包括以下步骤:首先,提供一个主从式的分布式测试框架,能够运行在多台计算机上,每台计算机上以多进程和多线程的方式并行地运行具体的测试用例;然后,在分布式测试框架中,定义并封装一套能够统一地访问不同分布式文件系统的访问接口;接着,在分布式测试框架中,设计一套能够用于实现不同测试用例的测试用例模型;最后,实现具体的、能够体现大规模机器学习以及大数据查询应用特性的测试用例。本发明解决了现有的分布式文件系统测试工具可扩展性能差,额外开销大,无法进行统一性能测试的问题。

    一种基于推送模型的分布式计算集群本地性调度方法

    公开(公告)号:CN108509280A

    公开(公告)日:2018-09-07

    申请号:CN201810367756.8

    申请日:2018-04-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于推送模型的分布式计算集群本地性调度方法,包括以下步骤:第一步,各应用管理器为每个计算任务生成一个资源请求,发送给集群调度器;第二步,集群调度器对收到的资源请求进行分类;第三步,对分类好的资源请求进行剪枝处理;第四步,节点管理器通过心跳来触发调度;第五步,对于等待时间超过了最大延迟时间的资源请求,缓存到待推送的资源请求队列中;第六步,将待推送的资源请求主动推送到其数据所在的节点进行调度;第七步,降低推送失败的资源请求所要求的数据本地性。本发明可解决现有集群调度器在内存计算场景下本地性差的问题,提高数据本地性,同时解决长尾效应问题。

    在交互式R语言平台中进行并行线性代数计算的方法

    公开(公告)号:CN105389220A

    公开(公告)日:2016-03-09

    申请号:CN201510755923.2

    申请日:2015-11-09

    Applicant: 南京大学

    CPC classification number: G06F9/547 G06F9/5022 G06F17/16 G06F2209/541

    Abstract: 本发明公开了一种基于交互式R语言平台的并行化线性代数计算的方法,包括以下步骤:提供两个计算平台,一个是交互式R语言平台,另外一个是并行线性代数计算平台,两个计算平台通过计算机网络进行通信;然后在交互式R语言平台中,设计实现一个并行线性代数计算的应用程序接口;最后在并行线性代数计算的应用程序接口的分布式矩阵类中,包含一个R环境类型的成员变量,并在分布式矩阵类的对象的初始化过程中,通过R语言的reg.finalizer函数向交互式R语言平台的垃圾回收器注册该成员变量的垃圾回收响应方式。本发明解决了现有的交互式R语言编程平台无法进行并行线性代数计算的不足,扩展了交互式R语言平台的计算能力。

    面向深度学习的GPU资源管理与智能化调度方法

    公开(公告)号:CN112416585B

    公开(公告)日:2024-03-15

    申请号:CN202011310749.8

    申请日:2020-11-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向深度学习的GPU资源管理与智能化调度方法,包括以下步骤:第一步,用户通过前端接口组件提交深度学习作业,包括待执行的深度学习程序与训练数据集;第二步,在进行验证后将作业添加到调度器对应的待调度队列;第三步,为该作业启动独立的作业管理器;第四步,向资源管理器申请作业运行需要的计算资源;第五步,对待调度作业进行特征建模与分析;第六步,根据作业特征与集群计算节点特征生成资源调度方案;第七步,按照调度方案将作业调度到指定计算节点上;第八步,作业执行器启动容器并执行深度学习程序。本发明可解决现有集群资源调度方法在深度学习场景下GPU资源利用率低、作业执行性能差的问题。

Patent Agency Ranking