-
公开(公告)号:CN118864983A
公开(公告)日:2024-10-29
申请号:CN202411068089.5
申请日:2024-08-05
申请人: 北京百度网讯科技有限公司
发明人: 张超
IPC分类号: G06V10/764 , G06V10/42 , G06V10/44 , G06V10/80 , G06N20/10 , G06N3/0464 , G06N3/0455 , G06V30/148
摘要: 本公开提供了一种图像的分类识别方法及其装置,涉及图像处理领域,尤其涉及人工智能领域。具体实现方案为:对待识别图像进行图像特征提取,得到待识别图像的图像特征,图像特征包括全局图像特征和局部图像特征;获取待识别图像的文本特征,文本特征至少包括基于图生文模型对待识别图像生成的描述文本对应的第一文本特征;对图像特征和文本特征进行特征融合,获取待识别图像的融合特征;基于融合特征对待识别图像进行图像分类识别。
-
公开(公告)号:CN113869306B
公开(公告)日:2024-10-29
申请号:CN202010623533.0
申请日:2020-06-30
申请人: 北京搜狗科技发展有限公司
IPC分类号: G06V30/148 , G06V20/62 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种文本定位方法、装置及电子设备,该方法包括:对待检测图像进行区域划分,获得n个图像区域,n≥2;针对每个所述图像区域,通过文本行检测模型对所述图像区域进行文本识别,若识别出所述图像区域包含文本,对所述图像区域进行文本行上下边界的关键点回归检测,获得文本行上下边界的关键点坐标;基于n个所述图像区域的文本识别结果和所述文本行上下边界的关键点坐标,获得所述待检测图像中的文本图像。上述技术方案,通过将文本行检测转换为关键点的检测,简化了检测任务,提高了检测速度和精度。
-
公开(公告)号:CN113469005B
公开(公告)日:2024-10-29
申请号:CN202110706242.2
申请日:2021-06-24
申请人: 金蝶软件(中国)有限公司
IPC分类号: G06V30/40 , G06V30/148 , G06F16/31
摘要: 本申请实施例公开了一种银行回单的识别方法,用于提高银行回单的识别效率。本申请实施例方法包括:获取待识别的银行回单图像;对银行回单图像进行识别,得到N个文本块,每个文本块包括对应的文本内容、索引和位置信息;根据N个文本块的索引和位置信息,对N个文本块进行拼接,得到目标文本块;采用自然语言处理技术对目标文本块进行识别,得到固定字段信息和收付款字段信息,并确定收付款字段信息的收付款方向。通过上述方式,在识别银行回单图像的过程中,不需要针对各个不同的银行回单格式进行定制识别模板,该识别方法可以适用于各种不同的银行回单格式,提高了银行回单的识别效率。
-
公开(公告)号:CN118397602B
公开(公告)日:2024-10-25
申请号:CN202410586500.1
申请日:2024-05-13
申请人: 广州引力科视电子设备有限公司
IPC分类号: G06V20/58 , G06V30/148 , G06V30/19 , G06V10/82 , G06V10/766 , G06N3/045 , G06N3/0475 , G06V10/94
摘要: 本发明公开了一种智能路牌识别车载摄像头系统,包括路牌识别管理系统模块、路牌数据采集模块、路牌识别模型模块、路牌检测模块、语义分割模块、文字识别模块和路牌识别播报模块,其中:所述路牌识别模型模块,由两个卷积神经网络RetinaNet串联组成,使用对抗网络BigGAN,生成黑天路牌对抗样本,增强对黑天路牌识别;本发明针对车载摄像头识别准确率问题,通过采用RetinaNet双重网络对图像进行识别,融合特征金字塔模型,对白天和黑天进行特征处理,使用对抗网络BigGAN生成对抗黑天路牌样本数据提高黑天识别效果,采用小目标检测FSSD算法及无锚框识别策略进行路牌框位置检测,同时RetinaNet采用全卷积网络,去掉全连接层,因此识别路牌速度非常快,黑天识别路牌的精准度非常高。
-
公开(公告)号:CN118824215A
公开(公告)日:2024-10-22
申请号:CN202310454081.1
申请日:2023-04-18
申请人: 腾讯科技(深圳)有限公司
发明人: 邱耀
IPC分类号: G10H1/00 , G10L25/18 , G06V30/148 , G10H1/36 , G06V10/40
摘要: 本申请实施例公开了一种音频处理方法、装置、设备、介质和产品,涉及人工智能技术,其中,方法包括:获取目标音频数据的频谱图,并对该频谱图进行目标检测,得到该频谱图包含的N个特征图像;该目标音频数据中的一个音符在该频谱图中表现为一个特征图像;基于该N个特征图像在该频谱图中的图像信息,确定该目标音频数据包含的N个音符的音符特征;基于该N个音符的音符特征,生成该目标音频数据的歌谱数据;该歌谱数据包含该目标音频数据的乐谱数据和歌词数据。采用本申请实施例,可以提升生成歌谱数据的效率以及准确性。
-
公开(公告)号:CN118823811A
公开(公告)日:2024-10-22
申请号:CN202411009962.3
申请日:2024-07-25
申请人: 北京字跳网络技术有限公司
IPC分类号: G06V30/413 , G06V30/148 , G06V30/19
摘要: 本公开涉及一种图像处理方法、装置、存储介质、电子设备及程序产品。获取目标文本图像对应的文本识别结果;将所述文本识别结果输入至目标实体识别模型后,得到所述目标文本图像中目标文本的阅读顺序以及实体标注结果,所述实体标注结果表征文本序列中每个文本单元是否属于实体,所述文本序列为所述目标文本对应的文本序列;根据所述阅读顺序和所述实体标注结果对所述目标文本图像进行文本实体抽取。
-
公开(公告)号:CN118819309A
公开(公告)日:2024-10-22
申请号:CN202311451628.9
申请日:2023-11-02
申请人: 中国移动通信有限公司研究院 , 北京邮电大学 , 中国移动通信集团有限公司
IPC分类号: G06F3/023 , G06V40/10 , G06V30/148 , G06V40/20 , G06F3/01
摘要: 本申请提供一种信息输入方法、装置及电子设备,该方法包括:采集用户手部的第一图像,所述用户手部包括多个手部区域;基于所述第一图像,确定所述用户手部的第一手指指向所述多个手部区域中的第一区域;根据预先获取的字符与手部区域之间的对应关系,显示所述第一区域对应的第一字符,其中,在所述对应关系中,每个手部区域对应一个字符,且所述对应关系与真实全键盘的打字规则中手指与字符之间的关系匹配。
-
公开(公告)号:CN118657121B
公开(公告)日:2024-10-22
申请号:CN202411095050.2
申请日:2024-08-12
申请人: 京华信息科技股份有限公司
IPC分类号: G06F40/166 , G06N3/0455 , G06N3/08 , G06V30/413 , G06V30/148 , G06V30/164 , G06V30/18 , G06V30/19 , G06V20/40 , G06V20/62 , G10L15/26 , G10L15/02 , G10L15/16 , G06N3/0442 , G06N3/0464
摘要: 本发明提供了一种基于算法模型的演讲文稿生成方法及系统,包括:获取训练时的第一演讲音视频文件,并对第一演讲音视频文件解析,第一图像结果和音频结果;除去第一图像结果的背景,并对得到待检测第一图像结果进行分类,得到文字区、表格区和图片区;根据初始的第一增强权重对分类结果进行增强,得到增强特征,并获取对应的扩写文本,将扩写文本作为第一孪生网络模型输入;对音频结果进行识别,得到演讲人的演讲文本,并将演讲文本作为第一孪生网络模型的第二个输入进行训练,得到训练好的第二扩写网络模型后对测试时的演讲素材,生成演讲文稿;采用本发明能够提高扩写文本有侧重的生成质量。
-
公开(公告)号:CN118587717B
公开(公告)日:2024-10-22
申请号:CN202411068401.0
申请日:2024-08-06
申请人: 杭州未斯科技有限公司
IPC分类号: G06V30/148 , G06V30/162 , G06V30/18 , G06V30/19
摘要: 本发明公开了一种图像字符分割方法、系统、电子设备及存储介质,包括获取图像,并对图像进行黑白二值化处理,获得黑白阈值化图像;在黑白阈值化图像构建网格坐标系,设置遍历核大小,在网格坐标系上选定一初始像素点,遍历核从初始像素点开始遍历探测,直至探测并找到切割边界。本发明可以实现对目标图像字符的有效切割,可提高后续对图像字符识别和文本识别的准确性和目标定位的检测效率。
-
公开(公告)号:CN115082728B
公开(公告)日:2024-10-22
申请号:CN202210581590.6
申请日:2022-05-26
申请人: 中国平安人寿保险股份有限公司
发明人: 马亿凯
IPC分类号: G06V10/764 , G06V10/774 , G06V30/148 , G06V10/82 , G06V10/56 , G06V10/44 , G06V10/24 , G06N3/0464 , G06N3/0442 , G06N3/048 , G06N3/049 , G06N3/084
摘要: 本发明公开了一种图片分类方法、装置、设备及介质,所述方法包括:获取相关图片;通过预设识别模型对所有相关图片进行图片内容识别,以从所有所述相关图片中筛选出资料图片;基于笔画等宽算法对所述资料图片进行标题识别,以确定与所述资料图片对应的图片标题内容;根据所述图片标题内容和预设的分类规则,对所述资料图片进行分类处理,得到分类结果,如此,实现了对图片内关键信息的快速提取,加快了资料审核速度,提高了文字识别的准确性,提升了图片分类的效率以及准确率,进一步提高了用户的体验。
-
-
-
-
-
-
-
-
-