用于智能机器人的多模态交互方法及装置

    公开(公告)号:CN106873893B

    公开(公告)日:2021-01-22

    申请号:CN201710075828.7

    申请日:2017-02-13

    发明人: 袁洋 陆羽皓

    摘要: 本发明公开了一种用于智能机器人的多模态交互方法及装置。所述智能机器人安装有机器人操作系统,该方法包括:获取用户输入的简笔画图像;通过使用特定的神经网络识别所述简笔画图像所表征的物体信息,所述特定的神经网络是预先通过对边缘化的图像进行训练得到的;基于所述物体信息生成多模态数据并向用户输出。本发明提出了一种“你画我猜”的新型交互模式,增强了智能机器人的多模态交互能力,提高了智能机器人的功能的多样性,改善了用户体验。

    一种面向智能机器人的人机交互方法及装置

    公开(公告)号:CN106022294B

    公开(公告)日:2020-08-18

    申请号:CN201610379615.9

    申请日:2016-06-01

    发明人: 徐振敬 陆羽皓

    IPC分类号: G06K9/00 B25J13/08 B25J11/00

    摘要: 一种面向智能机器人的人机交互方法及装置,其中,该方法包括:图像解析步骤,对获取到的预设时长内的关于目标的图像序列进行解析,得到目标的行为信息;交互决策步骤,根据目标的行为信息进行主动交互决策,并根据决策结果生成主动交互指令;交互输出步骤,根据主动交互指令生成主动交互的多模态数据并输出。与现有基于视觉的人机交互方法相比,本方法实现了对目标行为的准确预测,并根据该行为预测结果实现了智能机器人与用户之间更加有效、更加个性化的交互,从而提高了智能机器人的用户体验以及用户粘度。

    面向智能机器人的虚拟空间投影方法和装置

    公开(公告)号:CN106873300B

    公开(公告)日:2019-12-24

    申请号:CN201611270015.5

    申请日:2016-12-30

    发明人: 陆羽皓

    IPC分类号: G03B35/18

    摘要: 本发明提供一种面向智能机器人的虚拟空间投影方法,其包括以下步骤:扫描周围环境获取地形特征信息,并基于地形特征信息构建三维地图;进行人体检测,以获取在所构建的三维空间里的人眼坐标,并根据人眼坐标在三维地图中确定投影平面;基于需展示的三维影像生成人眼可视的二维图片,并将其投射到投影平面上。本发明的投影仪设置在智能机器人上,通过智能机器人的视觉系统实时精确地感知人的位置,尤其是人眼的坐标,从而针对人眼坐标确定投影位置以及所要投射的二维图像,使得在投影幕上显示的二维图像在人眼看来有三维的效果。

    语音合成方法及系统
    4.
    发明公开

    公开(公告)号:CN109859736A

    公开(公告)日:2019-06-07

    申请号:CN201910062047.3

    申请日:2019-01-23

    发明人: 马达标 陆羽皓

    摘要: 本发明提供一种语音合成方法,其包含:获取交互指令,并对交互指令进行分析,当交互指令中包含语音播放指令时,响应语音播放指令;调用通过完全可并行的注意力机制生成的声学模型,将待合成文本数据或待合成音标数据实时输入声学模型,得到待合成声学特征;将待合成声学特征输入声学合成器,通过声学合成器得到合成后的语音数据,并输出语音数据。本发明提供一种端到端声学模型以及训练方式,能够完全利用并行计算的优势。利用一种完全可并行的注意力机制和一种卷积结构,使得生成声学特征的用时与现有技术相比大大缩短,同时,还能够保证生成的声学特征的质量。因此,本发明能够在保证合成语音质量的情况下缩短合成时间,提高了语音合成的效率。

    面向机器人的目标物追踪检测方法及装置

    公开(公告)号:CN106228571B

    公开(公告)日:2019-04-19

    申请号:CN201610561740.1

    申请日:2016-07-15

    发明人: 陆羽皓

    IPC分类号: G06T7/246 G05D1/12

    摘要: 本发明提供了一种面向机器人的目标追踪检测方法,其包括以下步骤:图片检测步骤,启动目标追踪后,对接收到的图片进行存储,按设定的时间间隔,对当时接收的图片进行检测,以得到该图片中目标物对应的位置信息和边界;反向追踪步骤,当所述图片检测步骤得到任一张图片的检测结果后,对接收到该被检测图片之后接收的图片进行追踪,直至追踪到的目标物的位置信息和边界,对应所有被存储图片中,获取时间距当时时间最短的一张图片,将该图片的追踪结果作为反向追踪结果;前向追踪步骤,当反向追踪步骤得到反向追踪结果时,输出反向追踪结果,并基于所述反向追踪结果对之后接收的图片进行追踪,以获取之后接收的图片中目标物对应的位置信息和边界并输出,直至反向追踪步骤根据下一张被检测图片得到新的反向追踪结果。

    一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统

    公开(公告)号:CN108492817A

    公开(公告)日:2018-09-04

    申请号:CN201810142242.2

    申请日:2018-02-11

    发明人: 陆羽皓

    摘要: 本发明公开了一种基于虚拟偶像的歌曲数据处理方法,该方法包括如下步骤:获取多模态数据,从多模态数据中提取演唱歌曲音频,并将演唱歌曲音频转化为歌曲文件以词谱分离操作,生成与该歌曲文件对应的乐谱信息和歌词信息;根据音乐处理模型对乐谱信息和歌词信息进行编辑处理,生成乐谱创作信息和歌词创作信息;基于虚拟偶像的声线,将乐谱创作信息和歌词创作信息进行语音合成,生成目标曲目文件并输出。本申请能够通过移动设备的控制将目标自创作曲目在成像设备上表演,以辅助交互对象进行自行创作及演唱,提升交互对象的创作体验。

    基于智能机器人的模仿人脸表情输出的方法和系统

    公开(公告)号:CN106919899A

    公开(公告)日:2017-07-04

    申请号:CN201710034767.X

    申请日:2017-01-18

    发明人: 陆羽皓

    IPC分类号: G06K9/00 G06T17/30 B25J19/00

    摘要: 本发明提供一种基于智能机器人的模仿人脸表情输出的方法和系统。所述方法包括以下步骤:获取待显示无表情面部图像以及用户无表情的面部图像;对用户无表情的面部图像和待显示无表情面部图像进行解析,确定各自的无表情状态下的由平面三角网格构成的人脸三角形模型;实时获取并解析用户的表情图像,根据用户的人脸三角形模型和该表情图像的解析结果,在待显示无表情面部图像的人脸三角形模型上进行映射,生成模仿人脸表情的图像并输出。根据本发明,能够使智能机器人生动的模仿用户表情,贴近用户兴趣爱好,提高用户对智能机器人的体验度。

    一种用于机器人的物体识别方法以及机器人

    公开(公告)号:CN106863355A

    公开(公告)日:2017-06-20

    申请号:CN201611222770.6

    申请日:2016-12-27

    发明人: 陆羽皓 赵宁宁

    摘要: 本发明公开了一种用于机器人的物体识别方法以及一种机器人。所述方法包括:分别从多个不同视角对同一样本物体进行图像采集以获取多个不同的样本图像;将从属于同一样本物体的不同样本图像与所述样本物体的识别标签关联保存;针对待识别物体采集待识别图像,所述待识别图像为所述待识别物体在当前视角下的图像数据;从已保存的所有样本图像中搜索出所述待识别图像匹配的样本图像;提取搜索出的样本图像所关联的识别标签以完成对所述待识别物体的识别。与现有技术相比,本发明的方法减少了图像识别物体过程中视角变化对识别过程的影响,大大扩展了机器人的可识别范围以及识别效率,提高了识别正确率。

    基于人工智能的绘本阅读方法及装置

    公开(公告)号:CN111723653B

    公开(公告)日:2023-09-26

    申请号:CN202010397465.0

    申请日:2020-05-12

    摘要: 本发明提供的基于人工智能的绘本阅读方法,其包含:步骤一:在绘本阅读模式下,采集得到绘本图像,对绘本图像进行视觉识别;步骤二:对绘本图像进行翻页检测,判断绘本是否处于翻页阅读状态;步骤三:若绘本处于非翻页阅读状态,对绘本图像进行指读检测,判断绘本是否处于指读阅读状态或执手阅读状态;步骤四:在翻页阅读状态或指读阅读状态或执手阅读状态下,向用户反馈多模态阅读数据。本发明将用户阅读状态分为翻页阅读状态、指读阅读状态以及执手阅读状态,在用户进行阅读时能够分辨不同的阅读状态,针对性的提供相应的辅助阅读服务,改善了用户的阅读体验,减少了阅读的误判率,进一步提升了阅读舒适度。

    用于语音合成的音频数据生成方法及系统

    公开(公告)号:CN109036371B

    公开(公告)日:2020-12-18

    申请号:CN201810796789.4

    申请日:2018-07-19

    发明人: 马达标 陆羽皓

    IPC分类号: G10L13/02

    摘要: 本发明提供的用于语音合成的音频数据生成方法,其包含以下步骤:对文本数据中的文本特征进行提取,得到文本特征数据;通过神经网络结构对文本特征数据进行加速转化处理,将文本特征数据转化为声学特征数据;根据声学特征数据进行声音合成或选择拼接,得到音频数据。本发明,由于采用了特殊的反卷积结构,在不包含任何auto‑regressive结构,且使用极少的参数的前提下也能达到很好的语音合成效果,能够通过神经网络结构在保证声学特征预测精度的同时,减少计算延迟,减少计算资源需求,提高并发量,提升语音合成的速度,为改善人机交互体验做出贡献。