-
公开(公告)号:CN113190656B
公开(公告)日:2023-07-14
申请号:CN202110511025.8
申请日:2021-05-11
Applicant: 南京大学
IPC: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/242 , G06F40/295 , G06F18/241 , G06F18/2415 , G06N3/0455 , G06N3/0442 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于多标注框架与融合特征的中文命名实体抽取方法,该首先基于预训练语言模型对汉字进行编码。然后,通过词典匹配为每个汉字引入词信息与分词标记信息,构建词典特征。在此基础上,根据汉字在匹配词中的含义,使用汉语拼音软件对汉字进行注音,构建拼音特征。接着,基于点乘注意力机制融合词典特征与拼音特征到汉字编码中,得到结合词典特征与拼音特征的汉字语义编码,提升对于中文命名实体边界的识别能力。最后,结合序列标注与指标标注的优点,利用多任务学习模型联合学习两种标注任务,提高中文命名实体抽取的准确率。
-
公开(公告)号:CN108595616B
公开(公告)日:2022-04-26
申请号:CN201810366864.3
申请日:2018-04-23
Applicant: 南京大学
IPC: G06F16/16 , G06F16/182 , G06F16/178 , G06F16/13
Abstract: 本发明公开了一种面向分布式文件系统的统一命名空间管理的方法,包括以下步骤:将第一挂载表放置在统一命名空间服务端,统一命名空间客户端启动时从服务端获取挂载表,服务端挂载表支持挂载表项的动态添加和删除,客户端通过心跳线程定期从服务端获取更新的挂载表。本发明解决已有系统中挂载表分散难以管理,引入统一命名空间后元数据访问性能下降严重等问题。
-
公开(公告)号:CN113298233A
公开(公告)日:2021-08-24
申请号:CN202110555451.1
申请日:2021-05-21
Applicant: 南京大学
Abstract: 本发明公开了一种基于代理模型的渐进式深度集成架构搜索方法,首先设计了基于有向无环图的深度集成架构搜索空间,在上述搜索空间的基础上,采用渐进式的策略对搜索空间进行探索,并采用代理模型指导搜索过程。本发明可对不同的任务和数据集自动化地设计性能优异的深度集成架构,解决现今缺乏优异深度集成架构自动化设计方法的问题。
-
公开(公告)号:CN113238283A
公开(公告)日:2021-08-10
申请号:CN202110506615.1
申请日:2021-05-10
Applicant: 南京大学
Abstract: 本发明公开了一种基于分布式并进计算框架的逆时偏移成像方法,对于保存在分布式文件系统中的波场数据和相关参数,共包含四个步骤。第一步,从分布式文件系统中取出波场数据和相关参数,第二步,将波场数据按照规则划分为多个子波场数据,通过自定义的BlockPart it ioner策略将每个子波场数据块尽可能均匀地分发给不同的计算节点;第三步,在每个计算节点上对波场数据执行逆时偏移成像算法,并通过Pre‑Shuff le策略和Cache策略减少Shuff le Read大小;第四步,将每个计算节点上的成像波场按顺序叠加在一起并存储在分布式文件系统中。本发明能在大规模数据场景下高效的对波场数据进行存储、读取和计算。
-
公开(公告)号:CN113177034A
公开(公告)日:2021-07-27
申请号:CN202110491976.3
申请日:2021-05-06
Applicant: 南京大学
IPC: G06F16/182 , G06F16/901
Abstract: 本发明公开了一种跨平台统一的分布式图数据处理方法,包括如下步骤:用户通过跨平台统一分布式图处理编程框架提供的API触发计算;用户的程序被序列化到程序文件中并上传分布式文件系统;框架启动相应分布式图处理系统的计算作业;集群中多个计算节点启动计算进程;每个计算进程下载程序文件并启动PregelX Runner进程;PregelX Runner与计算进程建立进程间通信通道,计算进程通过进程间通信通道调用用户程序进行具体的数据处理。本发明使得用户可以基于Python语言编写可跨平台执行的分布式图数据处理程序,解决了现有分布式图处理系统用户学习成本高、程序迁移代价高等易用性不足的问题。
-
公开(公告)号:CN107491444B
公开(公告)日:2020-10-27
申请号:CN201710714527.4
申请日:2017-08-18
Applicant: 南京大学
IPC: G06F40/58 , G06F40/284
Abstract: 本发明公开了一种基于双语词嵌入技术的并行化词对齐方法,在Spark平台上利用MPS‑Neg双语词嵌入技术获得双语词向量表,由双语词向量表获得词对齐模型,进而进行分布式词对齐任务,利用词对齐结果和MPS‑Neg更新双语词向量表,重复以上词对齐和双语词向量表更新操作直至指定迭代次数。本发明解决了现有词对齐方法不能很好适应大规模语料词对齐任务的问题。
-
公开(公告)号:CN111459646A
公开(公告)日:2020-07-28
申请号:CN202010387106.7
申请日:2020-05-09
Applicant: 南京大学
IPC: G06F9/48 , G06F16/215 , G06F16/27
Abstract: 本发明公开了一种基于管道模型与任务合并的大数据质量管理任务调度方法,包括以下步骤:第一步,从各类底层异构大数据源中读取脏数据;第二步,定义一系列数据质量检测与修复任务,发送给任务调度器;第三步,任务调度器对收到的数据质量管理任务进行分类;第四步,对可合并的分类后任务进行合并处理;第五步,通过并行化数据处理函数依次执行各类任务;第六步,统一输出并反馈数据质量检测与修复任务的执行结果。本发明可解决现有数据质量管理系统在大数据场景下性能不足的问题,提高数据质量管理任务执行效率,同时兼顾数据质量的检测与修复问题。
-
公开(公告)号:CN111444220A
公开(公告)日:2020-07-24
申请号:CN202010387095.2
申请日:2020-05-09
Applicant: 南京大学
IPC: G06F16/2453 , G06F16/242 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种规则驱动和数据驱动相结合的跨平台SQL查询优化方法,包括以下步骤:第一步,将跨平台SQL语句解析成系统内部的逻辑查询计划;第二步,优化器调度模块依据逻辑查询计划的特点调度最适合的优化器进行查询优化;第三步,规则驱动的优化器依据规则进行计划搜索,并依据代价模型和基数估算进行执行计划的选择,得到最佳物理执行计划,且将优化结果导入样本采集模块;第四步,样本采集模块导入的样本经过数据适配模块转化为训练样本,数据驱动的优化器利用训练样本进行强化学习模型训练,将查询输入训练好的模型得到最佳物理执行计划。本发明解决了现有跨平台SQL查询优化方法可拓展性差、灵活性低、优化效果差等问题。
-
公开(公告)号:CN110059103A
公开(公告)日:2019-07-26
申请号:CN201910347842.7
申请日:2019-04-28
Applicant: 南京大学
IPC: G06F16/242 , G06F16/21
Abstract: 本发明公开了一种跨平台统一的大数据SQL查询方法,包括以下步骤:扩展部分SQL语义,为用户提供统一的跨平台SQL查询语言;统一SQL解析器将用户提交的查询语句解析为逻辑查询计划,并根据统一元数据库中保存的元信息,验证查询语句的合法性;跨平台优化器优化逻辑查询计划的结构与连接顺序,并将逻辑查询计划转化为由多个绑定了执行平台的子查询构成的最佳物理执行计划;跨平台调度器将最佳物理执行计划转化为任务流图,并根据任务间的依赖关系自动调度、执行所有任务;设计满足跨平台SQL查询需求的统一的平台层接口,屏蔽不同执行平台间的操作差异。本发明解决现有跨平台查询方法易用性差、性能低、数据迁移开销巨大等问题。
-
公开(公告)号:CN108573052A
公开(公告)日:2018-09-25
申请号:CN201810368421.8
申请日:2018-04-23
Applicant: 南京大学
IPC: G06F17/30
Abstract: 本发明公开了一种阈值自适应的集合相似连接方法,对于保存在数据库中的由集合记录构成的数据集R和S,以及相似度阈值τ,共包含六个步骤,其中前两个步骤属于数据预处理阶段,后四个步骤属于相似连接阶段:第一步,对R和S中所有的集合元素按照出现频率重编号;第二步,计算S集合元素的倒排索引I并将I存入数据库;第三步,对于R中的每条记录r,利用过滤器得到S中与r的相似度系数不小于阈值τ的候选记录集;第四步和第五步分别计算全量计算和直接验证两种模式的数据库获取开销;第六步选择开销更小的方式计算r的相似记录对。本发明可在广阈值范围内均高效的进行集合相似连接计算,解决现有技术不能同时兼顾低阈值和高阈值情况的问题。
-
-
-
-
-
-
-
-
-