专利检索 ap:("浙江大学" OR "城云科技(中国)有限公司") AND inv:"庄越挺" 第 1 页

1.

发明公开
基于网络裁剪的图像分类神经网络架构搜索方法和装置有权

公开(公告)号：CN112036512A

公开(公告)日：2020-12-04

申请号：CN202011212294.6

申请日：2020-11-03

申请人： 浙江大学 , 城云科技(中国)有限公司

发明人： 庄越挺 , 汤斯亮 , 肖俊 , 丁亚东 , 郁强 , 蒋忆

IPC分类号： G06K9/62 , G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于网络裁剪的图像分类神经网络架构搜索方法和装置。该方法首先构建神经网络架构搜索的超网络，提出用非标准化的强度因子去拟合网络架构的参数进行学习；然后对学习到的非标准化的强度因子进行按照提供的标准进行网络裁剪，以得到最优的网络架构。本发明在图像分类任务中可以使用较少的参数达到到相对于其他方法更好的性能。

2.

发明公开
一种基于解耦和干预的图网络对齐短语和图片区域的方法有权

公开(公告)号：CN112101358A

公开(公告)日：2020-12-18

申请号：CN202011217929.1

申请日：2020-11-04

申请人： 浙江大学 , 城云科技(中国)有限公司

发明人： 庄越挺 , 汤斯亮 , 肖俊 , 慕宗燊 , 郁强 , 蒋忆

IPC分类号： G06K9/32 , G06K9/62 , G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于解耦和干预的图网络对齐短语和图片区域的方法，属于图像数据处理领域。该方法先提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征，并利用视觉场景图和语法解析树分别得到视觉和文本语义图结构；然后将视觉和文本图结构通过基于解耦和干预的图神经网络后得到包含图结构中邻居关系的视觉候选区域和文本短语特征；最后通过跨模态的自注意力机制进行对齐映射，并根据对齐后的内积判断指定短语和视觉区域的对齐结果。本发明结合解耦和干预的图神经网络方法，能够学习到更加可解释和鲁棒的视觉和文本特征，从而利用包含图结构环境关系的特征实现跨模态对齐，完成短语到图片区域的定位。

3.

发明授权
基于网络裁剪的图像分类神经网络架构搜索方法和装置有权

公开(公告)号：CN112036512B

公开(公告)日：2021-03-26

申请号：CN202011212294.6

申请日：2020-11-03

申请人： 浙江大学 , 城云科技(中国)有限公司

发明人： 庄越挺 , 汤斯亮 , 肖俊 , 丁亚东 , 郁强 , 蒋忆

IPC分类号： G06K9/62 , G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于网络裁剪的图像分类神经网络架构搜索方法和装置。该方法首先构建神经网络架构搜索的超网络，提出用非标准化的强度因子去拟合网络架构的参数进行学习；然后对学习到的非标准化的强度因子进行按照提供的标准进行网络裁剪，以得到最优的网络架构。本发明在图像分类任务中可以使用较少的参数达到到相对于其他方法更好的性能。

4.

发明授权
一种基于解耦和干预的图网络对齐短语和图片区域的方法有权

公开(公告)号：CN112101358B

公开(公告)日：2021-02-26

申请号：CN202011217929.1

申请日：2020-11-04

申请人： 浙江大学 , 城云科技(中国)有限公司

发明人： 庄越挺 , 汤斯亮 , 肖俊 , 慕宗燊 , 郁强 , 蒋忆

IPC分类号： G06K9/32 , G06K9/62 , G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于解耦和干预的图网络对齐短语和图片区域的方法，属于图像数据处理领域。该方法先提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征，并利用视觉场景图和语法解析树分别得到视觉和文本语义图结构；然后将视觉和文本图结构通过基于解耦和干预的图神经网络后得到包含图结构中邻居关系的视觉候选区域和文本短语特征；最后通过跨模态的自注意力机制进行对齐映射，并根据对齐后的内积判断指定短语和视觉区域的对齐结果。本发明结合解耦和干预的图神经网络方法，能够学习到更加可解释和鲁棒的视觉和文本特征，从而利用包含图结构环境关系的特征实现跨模态对齐，完成短语到图片区域的定位。

5.

发明授权
一种推荐架构下的基于对比学习调优的论文作者消歧方法有权

公开(公告)号：CN114519108B

公开(公告)日：2024-10-11

申请号：CN202210060374.7

申请日：2022-01-19

申请人： 浙江大学

发明人： 庄越挺 , 胡单春 , 邵健 , 鲁伟明 , 宗畅

IPC分类号： G06F16/36 , G06F16/335 , G06F16/38 , G06N20/00

摘要： 本发明公开了一种推荐架构下的基于对比学习调优的论文作者消歧方法。本发明将论文作者消歧任务抽象为单塔推荐架构下的推荐排序问题。提出基于Wide&Deep推荐架构的排序算法解决基于表示的深度学习模型的语义漂移问题，实现基于多字段多实例注意力机制的深度模型与基于特征工程的线性模型相结合，使模型同时具备较强的泛化能力与记忆能力。此外，注意到真实匹配对之间应存在一定潜在模式的数据特点，针对性提出一种对比学习调优算法，引入对比学习损失，构建对比学习的正负样本，促使模型学习区分真实匹配对的高层次特征。

6.

发明公开
一种基于稳定扩散模型的图像分层生成系统、方法及装置审中-实审

公开(公告)号：CN118115624A

公开(公告)日：2024-05-31

申请号：CN202410536662.4

申请日：2024-04-30

申请人： 浙江大学

发明人： 汤斯亮 , 叶文韬 , 章冬平 , 张文桥 , 庄越挺

IPC分类号： G06T11/00 , G06F40/295

摘要： 本发明公开了一种基于稳定扩散模型的图像分层生成系统、方法及装置，包含三个模块：用户输入模块：接受和处理用户输入；粗遮罩提取模块：接受用户输入模块处理后的输入文本生成描述的图像，以及图像中每个需要分层物体的粗遮罩；图像分层重绘模块：修复粗遮罩提取模块处理后的文本描述图像以及粗遮罩生成精细遮罩以及图片的多层分层结果。本发明能够让扩散模型拥有多层生成的能力，解决了扩散模型无法实现多层图片生成的问题，提升了扩散模型在专业艺术、影视等需要严谨图像细节领域的可应用性。

7.

发明公开
一种基于跨媒体解纠缠表示学习的风格化图像描述生成方法审中-实审

公开(公告)号：CN115293959A

公开(公告)日：2022-11-04

申请号：CN202210861710.8

申请日：2022-07-20

申请人： 浙江大学

发明人： 张寅 , 蔺泽浩 , 李国趸 , 邓悦 , 庄越挺

IPC分类号： G06T3/00 , G06V10/774 , G06V10/764 , G06T9/00 , G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于跨媒体解纠缠表示学习的风格化图像描述生成方法。本发明分别从图像和描述文本中使用了两个解纠缠表示学习模块非对齐地学习解纠缠表示来分别学习图像和图像描述中解纠缠的事实信息和风格信息。在推理阶段，模型利用图像描述生成解码器以及一种特别设计的基于胶囊网络的信息聚合方法来充分利用先前学习的跨媒体信息表示，并通过直接控制隐层向量来生成目标风格的图像描述。和现有技术相比，本发明利用了解纠缠表示学习的技术提升了模型的可解释性和可控性。模型的跨媒体解纠缠表示可以带来更好的风格化图像描述生成性能，相对于现有的先进风格化图像描述生成模型，技术可在多个指标上的获得性能提升。

8.

发明授权
一种层次化新闻热点及其演化的挖掘与可视化方法有权

公开(公告)号：CN106951554B

公开(公告)日：2021-04-20

申请号：CN201710198955.6

申请日：2017-03-29

申请人： 浙江大学

发明人： 汤斯亮 , 董浩灵 , 吴飞 , 吴江琴 , 庄越挺

IPC分类号： G06F16/953 , G06F16/33 , G06F16/34 , G06F16/35

摘要： 本发明公开了一种层次化新闻热点及其演化的挖掘与可视化方法。包括如下步骤：1).利用概率主题建模技术挖掘由抽象到具体的具有层次化结构的新闻热点。2).提出全新的“Nested‑circle”可视化布局对层次化的新闻热点进行可视化。3).利用相对熵方法挖掘相邻时间片同一粒度的层次化新闻热点的关联性，即新闻热点在时序上的演化行为。4).采用动态可视化技术呈现新闻热点在时序上的演化行为。5).结合上述层次化新闻热点及其演化的挖掘与可视化技术，集成了“层次化新闻热点及其演化的分析系统”，方便读者分析层次化新闻热点及其演化。

9.

发明授权
一种联合文本分类的多任务命名实体识别方法有权

公开(公告)号：CN111209738B

公开(公告)日：2021-03-26

申请号：CN201911417834.1

申请日：2019-12-31

申请人： 浙江大学

发明人： 庄越挺 , 浦世亮 , 汤斯亮 , 纪睿 , 王凯 , 吴飞

IPC分类号： G06F40/216 , G06F40/289 , G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62

摘要： 本发明公开了一种联合文本分类的多任务命名实体识别方法。该方法包括如下步骤：(1)利用卷积神经网络构造文本分类器，度量文本的相似度；(2)选取合适的阈值，对于辅助任务的数据集，根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新；(3)将文本的字符向量与预训练好的词向量级联作为输入特征向量；(4)在共享层，利用双向LSTM对句子中每个单词的输入特征向量进行建模，学习各任务的公共特征；(5)在任务层依次训练每个任务，将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络，再利用线性链条件随机场来对整个句子进行标签解码，并标注句子中的实体。本发明在多个生物医学领域的数据集上进行实验，可以有效提升语料难获取、标注成本高的特定领域的命名实体识别效果。

10.

发明授权
基于共识图表征推理的定位自然图像字幕生成方法和装置有权转让

公开(公告)号：CN111741236B

公开(公告)日：2021-01-01

申请号：CN202010857184.9

申请日：2020-08-24

申请人： 浙江大学 , 杭州海康威视数字技术股份有限公司

发明人： 庄越挺 , 浦世亮 , 汤斯亮 , 张文桥 , 吴飞 , 肖俊 , 李玺 , 任文奇 , 张世峰 , 陆展鸿

IPC分类号： H04N5/278 , H04N21/488 , H04N21/81 , G06N3/04 , G06N3/08

摘要： 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤：S1：以预先提取的视觉场景图及文本场景图作为先验知识，通过结构对抗学习方法从图先验中进行演绎与推理，生成作为共识知识的共识图表征；S2：基于视觉空间图与共识图表征，结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述；S3：在S2中生成文本描述的同时，根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性，从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题，并获取更优的字幕生成与对象定位性能。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类