一种基于Smith-Waterman算法的并行处理硬件加速单元

    公开(公告)号:CN110471642A

    公开(公告)日:2019-11-19

    申请号:CN201810453228.4

    申请日:2018-05-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于Smith-Waterman算法的并行处理硬件加速单元。本并行加速单元由三个模块组成,匹配模块比较两个基因字符串的输入得到相似得分值x(i,j);超前计算模块利用相似得分值计算得到超前计算项;计算得分模块通过传入的初始值和超前计算项同时计算输出16个得分值。将此并行处理单元组成脉动阵列结构,可以提高并行度,非常高效地处理两个基因序列的比对得到得分矩阵用以回溯找到最优的比对模型,提高了处理速度,减少了运算时间。

    一种面向大规模MIMO系统的信号检测方法及系统

    公开(公告)号:CN115276729B

    公开(公告)日:2025-03-14

    申请号:CN202210864604.5

    申请日:2022-07-21

    Applicant: 南京大学

    Abstract: 本申请提供一种面向大规模MIMO系统的信号检测方法及系统,根据发送端的天线数目和接收端的天线数目,确定第一阻尼系数和第二阻尼系数;根据接收信号、信道矩阵、平均符号能量和第一阻尼系数,确定发送信号后验概率分布的初始均值;利用SORI方法对发送信号的后验概率分布的均值进行SORI迭代,根据完成SORI迭代后的均值向量,确定腔边缘概率服从的高斯分布的初始均值;采用EPA迭代方法,迭代更新腔边缘概率服从的高斯分布的均值,将达到EPA预设迭代次数的腔边缘概率服从的高斯分布的均值作为发送信号的估计值。将SORI和EPA算法相结合,利用SORI来近似EPA算法初始化部分的矩阵求逆,从而大大提高收敛速度。

    一种基于近似最近邻搜索的向量检索装置

    公开(公告)号:CN119513375A

    公开(公告)日:2025-02-25

    申请号:CN202411664669.0

    申请日:2024-11-20

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于近似最近邻搜索的向量检索装置,包含第一存储、第二存储、第三存储、第四存储、大聚类计算LCM模块、量化查找表计算QPM模块,以及最终量化相似度计算和结果计算DCM模块;本装置可以连接HBM、DDR等存储器,而不是仅能够采用FPGA的BRAM片上存储来存储所有数据,可以应用于更多更复杂的场景;本装置采用了更高效的大聚类中心计算和量化查找表计算的并行策略,以及更高速的Top‑k计算模块,速度更快、功耗更低。

    一种基于稀疏混合视频压缩网络的视频压缩方法及系统

    公开(公告)号:CN118018742A

    公开(公告)日:2024-05-10

    申请号:CN202410047711.8

    申请日:2024-01-11

    Applicant: 南京大学

    Abstract: 本申请公开了一种基于稀疏混合视频压缩网络的视频压缩方法及系统,方法包括:获取待压缩帧视频数据;引入可重参数化的快速卷积层和可重参数化的快速反卷积层,构建混合视频压缩网络模型;基于面向快速算法和剪枝策略对混合视频压缩网络模型进行优化处理;构建神经视频压缩硬件加速器并通过优化后的混合视频压缩网络模型对待压缩帧视频数据进行压缩处理。本申请实施例能够降低计算复杂度的同时保持模型性能,在资源有限设备上实现实时视频压缩,对混合视频压缩网络设计专用的硬件加速器,减少由大尺寸运动和残差特征引起的大量片外数据通信和计算资源开销,进而实现高效的端侧视频压缩。本申请可以广泛应用于视频压缩技术领域。

    一种实现动态计算的高精度高比例的分类模型及分类方法

    公开(公告)号:CN112633402B

    公开(公告)日:2024-05-03

    申请号:CN202011607740.3

    申请日:2020-12-30

    Applicant: 南京大学

    Abstract: 本申请涉及神经网络技术领域,提供一种实现动态计算的高精度高比例的分类模型及分类方法,高精度高比例的分类模型包括主干网络模型和至少一个第一分支网络模型;主干网络模型包括输入端、输出端和多个中间层,在多个中间层的1/4‑1/3的层数之间,插入第一分支网络模型;第一分支网络模型包括分类模块和置信度确定模块。在实际应用过程中,分类模块用于产生插入处的分类输出,置信度确定模块用于判断分类输出是否满足精度要求,若满足精度要求,则高精度高比例的分类模型在第一分支网络模型的输出端提前退出,若不满足精度要求,则放弃分类模块产生的分类输出,并返回主干网络模型的中间层,继续完成分类运算。

    编码方法、译码方法、编码装置和译码装置

    公开(公告)号:CN113300718B

    公开(公告)日:2024-04-09

    申请号:CN202110552038.X

    申请日:2021-05-20

    Applicant: 南京大学

    Abstract: 本申请提供一种编码方法、译码方法、编码装置和译码装置。该编码方法包括:获取信息矩阵,所述信息矩阵为信源经过RS编码以及预处理后形成的矩阵,所述预处理至少包括交织和映射;按照信息矩阵中各元素所在的位置将信息矩阵分解为多个子集;根据所述子集中目标元素的个数,生成1个比特的校验位;将所述信息矩阵与所述校验位组合后形成的码字矩阵作为编码序列进行传输。该编码方法采用RS+TPC级联编码方案,仅对每行和每列进行单比特奇偶校验,故所提出方案的复杂度明显低于RS+BCH级联方案,且译码性能和以往方案的性能相比有所提高,从而解决现有级联编码方式复杂度高而导致的资源消耗大,延时长的问题。

    一种图片识别方法
    37.
    发明授权

    公开(公告)号:CN112712126B

    公开(公告)日:2024-03-19

    申请号:CN202110009127.X

    申请日:2021-01-05

    Applicant: 南京大学

    Abstract: 本申请提供了一种图片识别方法,该方法采用预先训练好的图片识别模型,图片识别模型包括:主网络、分支网络、分支点以及第一处理模块;主网络为任意一种卷积神经网络模型;分支点设置于预定位置处;分支网络包括预设层数并且预设通道宽度的分支网络卷积层;预设层数以及预设通道宽度根据主网络中的下采样层确定;图片识别方法包括:主网络对待识别图片进行第一特征处理,得到第一处理图片;分支网络对第一处理图片进行识别,确定分支识别结果;第一处理模块接收分支网络输出的分支识别结果,并根据分支识别结果与分支识别结果的极大值位置确定交叉熵;如果交叉熵小于预设阈值,则输出分支识别结果。本申请提供的方法提高了图片识别精度。

    浮点数转换方法及装置
    38.
    发明授权

    公开(公告)号:CN111340207B

    公开(公告)日:2023-12-15

    申请号:CN202010138180.5

    申请日:2020-03-03

    Applicant: 南京大学

    Abstract: 本申请提供了一种浮点数的转换方法及装置。所述方法包括:对第一浮点数进行分析,确定第一浮点数中第一符号段的值、组织段的值、第一指数段的值和第一尾数段的值,据此分别确定第二符号段的值、第二指数段的值和第二尾数段的值,再将第二符号段的值、第二指数段的值和第二尾数段的值,以二进制码的形式组合成IEEE 754数据格式的第二浮点数。如此,能够实现将posit数据格式的浮点数转换为IEEE 754数据格式的浮点数。

    一种基于脉动阵列的矩阵乘法处理器及其数据处理方法

    公开(公告)号:CN111291323B

    公开(公告)日:2023-12-12

    申请号:CN202010095448.1

    申请日:2020-02-17

    Applicant: 南京大学

    Abstract: 本申请公开了一种基于脉动阵列的矩阵乘法处理器及其数据处理方法,该矩阵乘法处理器包括由多个基本运算单元排布而成脉动阵列,多个权重输入通道以及数据输入通道,脉动阵列中每一列的任意两个相邻基本运算单元之间通过D触发器相连,D触发器用于根据时钟信号进行数据的的存储及传递,权重输入通道以及数据输入通道分别用于按照时钟信号,将权重数据输入至对应行中的每一个基本运算单元以及将激活数据输入至脉动阵列中每一列底端基本运算单元的数据输入接口。当权重数据和激活数据在时钟信号的控制下广播时,无需额外的控制信号,D触发器便可同时进行数据的存储以及传递,有效减少控制信号的数量,降低矩阵乘法处理器的布线复杂度。

    一种新型8B10B编码方法
    40.
    发明公开

    公开(公告)号:CN116938254A

    公开(公告)日:2023-10-24

    申请号:CN202310887760.8

    申请日:2023-07-18

    Applicant: 南京大学

    Inventor: 王中风 邓子锋

    Abstract: 本发明提供一种新型8B10B编码方法,包括:根据编码控制位k判断输入编码器的8bit信号是控制码还是数据码,在数据编码部分,将输入8bit数据分为高3位和低5位分别编码,得到各自的编码中间值,若编码中间值是0、1数量相同的完美平衡码,则直接输出编码结果,否则判断编码中间值0、1数量的差值,再根据输入极性偏差得到最终的编码结果,并将编码结果合并为10bit输出。本发明有效的将编码器中极性偏差的更新、数据编码部分的3B4B编码、5B6B编码解耦,本发明所提出的架构相较于广泛使用的经典架构的优点在于关键路径更短,可以在更高的频率下工作,有效减少了由于插入流水线和并行化带来的额外的面积、功耗等开销。

Patent Agency Ranking