Patent search ap:("之江实验室") AND inv:"汪芬" Page 1

1.

发明公开
一种说话人自适应的多视角对话情感识别方法及系统有权

公开(公告)号：CN113571097A

公开(公告)日：2021-10-29

申请号：CN202111141588.9

申请日：2021-09-28

Applicant: 之江实验室

Inventor： 阮玉平 , 李太豪 , 汪芬 , 郑书凯

IPC: G10L25/63 , G10L15/22 , G06F40/35

Abstract: 本发明公开了一种说话人自适应的多视角对话情感识别方法及系统，方法包括：S1，将多轮对话中，每条对话语句的说话人，映射到对应的说话人ID序列，去除说话人具体身份；S2，对说话人ID标记后的多轮对话，进行融合说话人信息的上下文编码，得到对话中每个语句的上下文编码表征；S3，基于上下文编码表征，进行说话人自适应的多视角全局对话信息融合编码，得到对话的多视角全局融合信息；S4，将多视角的全局融合信息，进行自适应的信息汇总，并对语句最终情感进行识别；系统包括：依次连接的多轮对话预处理模块、上下文编码模块、多视角全局融合编码模块和情感识别模块。

2.

发明授权
一种说话人自适应的多视角对话情感识别方法及系统有权

公开(公告)号：CN113571097B

公开(公告)日：2022-01-18

申请号：CN202111141588.9

申请日：2021-09-28

Applicant: 之江实验室

Inventor： 阮玉平 , 李太豪 , 汪芬 , 郑书凯

IPC: G10L25/63 , G10L15/22 , G06F40/35

Abstract: 本发明公开了一种说话人自适应的多视角对话情感识别方法及系统，方法包括：S1，将多轮对话中，每条对话语句的说话人，映射到对应的说话人ID序列，去除说话人具体身份；S2，对说话人ID标记后的多轮对话，进行融合说话人信息的上下文编码，得到对话中每个语句的上下文编码表征；S3，基于上下文编码表征，进行说话人自适应的多视角全局对话信息融合编码，得到对话的多视角全局融合信息；S4，将多视角的全局融合信息，进行自适应的信息汇总，并对语句最终情感进行识别；系统包括：依次连接的多轮对话预处理模块、上下文编码模块、多视角全局融合编码模块和情感识别模块。

3.

发明公开
一种歌声合成模型的训练方法、装置、介质及电子设备审中-实审

公开(公告)号：CN116469411A

公开(公告)日：2023-07-21

申请号：CN202310418617.4

申请日：2023-04-14

Applicant: 之江实验室

Inventor： 李太豪 , 郑书凯 , 汪芬

IPC: G10L25/24 , G10L25/18 , G10L25/30

Abstract: 本说明书公开了一种歌声合成模型的训练方法、装置、介质及电子设备，包括：通过预先收集的歌曲的歌曲数据，训练待训练的歌声合成模型。在训练时，先根据歌曲的歌词数据，确定歌曲的音素，再将音素与歌谱数据进行拼接，并将拼接结果输入待训练的歌声合成模型的旋律预测层，得到歌曲的第一旋律分布。之后，将确定歌曲出的第一梅尔谱输入歌声预测层，得到预测音频以及第二旋律分布。然后，根据第一旋律分布与第二旋律分布的差异，音频数据与预测音频的差异，确定目标损失，并以目标损失最小为优化目标，对待训练的歌声合成模型进行训练。提高训练完成的歌声合成模型的采样率，使得根据歌声合成模型生成的歌声中的颤音减少。

Patent Agency Ranking