一种用于音视频的OCR识别方法及系统

Invention Publication

CN119007181A 一种用于音视频的OCR识别方法及系统审中-实审

Please log in to see more content

Patent Title: 一种用于音视频的OCR识别方法及系统
Application No.: CN202411257822.8

Application Date: 2024-09-09
Publication No.: CN119007181A

Publication Date: 2024-11-22
Inventor: 李晓勐 , 彭元龙 , 胡威 , 袁洲 , 卢腾 , 崔兆伟 , 李清波 , 张大伟 , 魏家辉 , 林冰洁 , 夏昂 , 王子萌 , 李慧敏 , 刘孟奇 , 石进 , 李成巍 , 刘俊文 , 闫珺路 , 曹耀夫 , 赵景程 , 李凤来
Applicant: 国家电网有限公司信息通信分公司
Applicant Address: 北京市西城区白广路二条一号综合楼2307房间
Assignee: 国家电网有限公司信息通信分公司
Current Assignee: 国家电网有限公司信息通信分公司
Current Assignee Address: 北京市西城区白广路二条一号综合楼2307房间
Agency: 郑州启晖知识产权代理事务所
Agent 李楠
Main IPC: G06V20/62
IPC: G06V20/62 ; G06V30/18 ; G06V30/148 ; G06V30/226 ; G06V10/82 ; G06N3/0499 ; G06N3/084 ; G10L15/26

Abstract:

本申请涉及图像处理识别技术领域，具体涉及一种用于音视频的OCR识别方法及系统，该方法包括：提取各当前帧的灰度图中的潜在汉字区域；确定各当前帧中每个潜在汉字区域的汉字确信度；根据各当前帧中每个潜在汉字区域与其对比区域的两目标区域中所有像素点的灰度值的平均分布情况之间的差异，结合所述汉字确信度，构建各当前帧中每个潜在汉字区域的汉字评估指数，以实现音视频的文字识别。本申请基于汉字区域的形态纹理特征及视频数据所具备的时空上下文特征，以调整神经网络的训练参数，提高对音视频中字符识别的准确度和神经网络模型的训练精度。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/60	.对象类型
G06V20/62	..文本，例如车牌、覆盖文本或电视图像上的标题