Patent search ap:("深圳市易思态科技有限公司") AND inv:"李刚" Page 1

1.

发明公开
用于导播系统的快捷操作控制方法、装置、设备及介质审中-实审

公开(公告)号：CN119232987A

公开(公告)日：2024-12-31

申请号：CN202411773921.1

申请日：2024-12-05

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚 , 程鹏

IPC: H04N21/41 , H04N21/422 , H04N21/43 , H04N21/2187

Abstract: 本发明公开了用于导播系统的快捷操作控制方法、装置、设备及介质，方法包括：若接收到输入的快捷操作配置信息则判断是否已存储未绑定的芯片标识，若未存储则发出扫描提示信息，若已存储则将快捷操作配置信息与未绑定的芯片标识进行绑定得到配置绑定信息，根据用户输入的模式切换指令进行模式切换，若接收到输入的芯片标识则获取相匹配的配置绑定信息作为目标绑定信息，根据目标绑定信息对当前直播画面进行调整以生成新的直播画面并进行输出。上述方法，生成配置绑定信息进行存储，再次扫描芯片标识则激活相应配置绑定信息对当前直播画面进行加载对象配置及快捷操作控制，提高了对直播画面进行快捷操作控制的效率。

2.

发明授权
基于大语言模型的语音识别方法、装置、设备及介质有权

公开(公告)号：CN119152858B

公开(公告)日：2025-03-07

申请号：CN202411638787.4

申请日：2024-11-18

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚 , 程鹏

IPC: G10L15/26 , G10L15/18 , G10L15/04

Abstract: 本发明公开了基于大语言模型的语音识别方法、装置、设备及介质，该方法应用于管理服务器，包括将接收到的实时输入的音频流输入预设的流式识别模型，以得到相应的一阶段语音识别文本；根据所确定的断句点将音频流按时间顺序依次分割成若干段子音频流，并将所有的子音频流依次输入至预设的第一语音识别模型以得到对应的二阶段子语音识别文本；将与不同的第一断句点相关的二阶段子语音识别文本分次输入预设的大语言模型，以得到多个相应的修正后二阶段子语音识别文本，以得到与所接收到的全部音频流相应的目标语音识别文本。本方法可提高语音识别的准确度，通过大语言模型对断句位置进行修正和优化，提高了语音内容的还原度。

3.

发明公开
应用于导播系统的歌词合成方法、装置、设备及介质审中-实审

公开(公告)号：CN119484919A

公开(公告)日：2025-02-18

申请号：CN202411559934.9

申请日：2024-11-04

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚

IPC: H04N21/43 , H04N21/2368 , H04N21/236 , H04N21/488 , H04N21/8547

Abstract: 本发明实施例提供了一种应用于导播系统的歌词合成方法、装置、设备及介质，所述方法包括：实时抓取目标播放器界面的歌词数据；根据预设的歌词标准格式对所述歌词数据进行转换，得到标准歌词数据；根据预设的PAG效果文件对所述标准歌词数据中的目标歌词信息进行动效显示处理，得到对应的歌词显示图像；其中，所述歌词显示图像保留透明通道；根据所述透明通道将所述歌词显示图像渲染在导播系统的导播画面。本发明能有效提升歌词合成效率及歌词显示效果。

4.

发明授权
基于终端信息交互的双向实时翻译方法、装置及设备有权

公开(公告)号：CN119150891B

公开(公告)日：2025-01-28

申请号：CN202411623554.7

申请日：2024-11-14

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚 , 程鹏

IPC: G06F40/58 , G10L15/26 , H04L65/1069 , H04L65/80 , H04N21/2187 , H04N21/472 , H04N21/488

Abstract: 本发明公开了基于终端信息交互的双向实时翻译方法、装置及设备，方法包括：根据启动指令启动同声传译服务，创建虚拟麦克风并根据当前活动应用对虚拟麦克风进行音频链路配置，通过音频链路获取第一语音并翻译得到第二语音和/或文本信息，通过虚拟麦克风采集第二语音并通过当前活动应用输出，通过音频链路获取第三语音并翻译得到第四语音进行播放，若获取到文本信息则输入当前活动应用进行同步输出。上述方法，通过生成虚拟麦克风并与当前活动应用进行音频链路配置，从而通过虚拟麦克风实现与当前活动应用之间进行音频传输，能够实现同声传译服务与其他第三方服务进行结合应用，极大扩展了同声传译服务应用的灵活性。

5.

发明公开
视频测试方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN116506593A

公开(公告)日：2023-07-28

申请号：CN202310515517.3

申请日：2023-05-08

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚

IPC: H04N17/00 , G06V20/40 , G06T7/00

Abstract: 本申请公开了一种视频测试方法、装置、电子设备及可读存储介质，方法包括：在播放待识别视频时，获取待识别视频中各个已播放的视频帧，待识别视频各个视频帧分别包括图形标识，待识别视频中任意连续的预设数量个视频帧的图形标识均不同；根据各个已播放的视频帧中的图形标识，从各个已播放的视频帧中确定按照播放顺序排列的多个视频帧，作为视频帧序列；根据视频帧序列中各个视频帧的获取时刻，确定目标视频的播放帧率，目标视频为待识别视频中包括视频帧序列的视频片段。在本申请中，图形标识结构简单且直观，使得对已播放的视频帧的图形标识识别时，数据分析量较少，提高了识别效率，进而提高了根据图形标识获取目标视频的播放帧率的效率。

6.

发明公开
应用于导播系统的动画实时编辑方法、装置、设备及介质审中-实审

公开(公告)号：CN119205995A

公开(公告)日：2024-12-27

申请号：CN202411686466.1

申请日：2024-11-25

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚 , 程鹏

IPC: G06T13/00 , H04N21/2187 , H04N21/81

Abstract: 本发明提供了一种应用于导播系统的动画实时编辑方法、装置、设备及介质，方法包括：响应来自导播系统的动画编辑指令；根据与动画编辑指令对应的动画编辑规则对动画文件进行适应性修改，得到修改后动画文件；提取修改后动画文件中各帧图像的动画参数；基于动画参数对各帧图像进行渲染，得到对应的视频图像；其中，各视频图像均保留透明通道；根据播放顺序在导播系统的播放界面播放各视频图像；其中，播放顺序为修改后动画文件中各视频图像的播放顺序。本发明实施例可在导播系统中实时编辑动画文件，提高动画实时编辑效率。

7.

发明公开
基于蓝牙传输的同声传译方法、装置、设备及介质审中-实审

公开(公告)号：CN119181365A

公开(公告)日：2024-12-24

申请号：CN202411256774.0

申请日：2024-09-09

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚

IPC: G10L15/26 , H04W4/80

Abstract: 本发明公开了基于蓝牙传输的同声传译方法、装置、设备及介质，方法包括：根据启动指令启动同声传译服务并创建虚拟麦克风，对虚拟麦克风与当前活动应用进行连接配置，接收蓝牙播放设备采集的第一语音则通过同声传译服务翻译为第二语音反馈至蓝牙播放设备，获取蓝牙播放设备播放第二语音同步采集的镜像语音并通过虚拟麦克风采集后转发至当前活动应用，当前活动应用将镜像语音输出至对接终端。上述方法，通过启动同声传译服务并创建对应的虚拟麦克风，可不受制于应用程序的限制及应用场景的限制，可通过蓝牙传输连接实现同声传译并应用于实时会议或进行实时通话的场景中，大幅扩展了应用场景，扩宽了用于蓝牙传输连接的同声传译方法的适用范围。

8.

发明公开
基于大语言模型的语音识别方法、装置、设备及介质有权

公开(公告)号：CN119152858A

公开(公告)日：2024-12-17

申请号：CN202411638787.4

申请日：2024-11-18

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚 , 程鹏

IPC: G10L15/26 , G10L15/18 , G10L15/04

Abstract: 本发明公开了基于大语言模型的语音识别方法、装置、设备及介质，该方法应用于管理服务器，包括将接收到的实时输入的音频流输入预设的流式识别模型，以得到相应的一阶段语音识别文本；根据所确定的断句点将音频流按时间顺序依次分割成若干段子音频流，并将所有的子音频流依次输入至预设的第一语音识别模型以得到对应的二阶段子语音识别文本；将与不同的第一断句点相关的二阶段子语音识别文本分次输入预设的大语言模型，以得到多个相应的修正后二阶段子语音识别文本，以得到与所接收到的全部音频流相应的目标语音识别文本。本方法可提高语音识别的准确度，通过大语言模型对断句位置进行修正和优化，提高了语音内容的还原度。

9.

发明公开
基于终端信息交互的双向实时翻译方法、装置及设备有权

公开(公告)号：CN119150891A

公开(公告)日：2024-12-17

申请号：CN202411623554.7

申请日：2024-11-14

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚 , 程鹏

IPC: G06F40/58 , G10L15/26 , H04L65/1069 , H04L65/80 , H04N21/2187 , H04N21/472 , H04N21/488

Abstract: 本发明公开了基于终端信息交互的双向实时翻译方法、装置及设备，方法包括：根据启动指令启动同声传译服务，创建虚拟麦克风并根据当前活动应用对虚拟麦克风进行音频链路配置，通过音频链路获取第一语音并翻译得到第二语音和/或文本信息，通过虚拟麦克风采集第二语音并通过当前活动应用输出，通过音频链路获取第三语音并翻译得到第四语音进行播放，若获取到文本信息则输入当前活动应用进行同步输出。上述方法，通过生成虚拟麦克风并与当前活动应用进行音频链路配置，从而通过虚拟麦克风实现与当前活动应用之间进行音频传输，能够实现同声传译服务与其他第三方服务进行结合应用，极大扩展了同声传译服务应用的灵活性。

10.

发明公开
视频处理方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN116668774A

公开(公告)日：2023-08-29

申请号：CN202310535749.5

申请日：2023-05-12

Applicant: 深圳市易思态科技有限公司

Inventor： 李刚

IPC: H04N21/4402

Abstract: 本申请公开了一种视频处理方法、装置、电子设备及可读存储介质，方法包括：获取目标视频中待处理视频帧对应的第一格式数据、第二格式数据以及第三格式数据；待处理视频帧对应的第二格式数据以及第三格式数据的行数相同；将待处理视频帧对应的第二格式数据中的每一行数据以及第三格式数据中的每一行数据交错排列，得到待处理视频帧对应的预处理数据；根据待处理视频帧对应的第一格式数据以及预处理数据，得到待处理视频帧对应的目标数据；根据目标视频中各个待处理视频帧各自的目标数据，确定目标视频对应的最终视频。在本申请中，每次交错排列一行数据，而不是每个像素点各自的数据，提高了数据格式转换的速度和效率。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification