一种基于双模态学习的矢量字体生成方法

    公开(公告)号:CN114298181A

    公开(公告)日:2022-04-08

    申请号:CN202111555201.4

    申请日:2021-12-17

    申请人: 北京大学

    发明人: 连宙辉 王逸之

    摘要: 本发明公布了一种基于双模态学习的矢量字体生成方法,构建双模态学习的矢量字体生成模型DeepVecFont,包括图像编码器、序列编码器、图像解码器、序列解码器;通过学习少量参考字符的字形矢量图和字形位图两个模态的风格特征并进行模态融合,得到融合后统一的字体风格特征;再将融合后的字体风格特征输送到序列解码器和图像解码器中生成目标字符的矢量图和位图;进一步可通过可微分栅格化方法修正矢量字形,对生成的目标字符的字形矢量图进行修正,即得到矢量字体。本发明方法利用了字形位图和矢量图两种模态信息,并可修正生成的矢量字形中存在位置偏移问题,提升矢量字体生成的性能和精度。

    一种自然场景图片中的文本字体的识别方法

    公开(公告)号:CN108376244B

    公开(公告)日:2022-03-25

    申请号:CN201810104830.7

    申请日:2018-02-02

    申请人: 北京大学

    摘要: 本发明公布了一种自然场景图片中的文本字体的识别方法,通过图片合成方法获得大量融合不同字体文本的具体类似真实效果的自然场景图片,利用图片训练得到字体识别器和文本定位器,通过文本定位器从互联网图片中定位出更多文本图片,再利用迁移学习方法,通过字体识别器从图片中进一步学习,进一步提高识别的准确度。本发明采用自动合成高质量训练图片的方案,避免了耗时耗力的人工标注,大幅度降低成本,使得字体分类器具有更好的识别精度。此外,本发明引入迁移学习方法,充分利用大量无字体标签的图片,进一步增强字体分类器的准确度。

    一种自然场景图片中的文本字体的识别方法

    公开(公告)号:CN108376244A

    公开(公告)日:2018-08-07

    申请号:CN201810104830.7

    申请日:2018-02-02

    申请人: 北京大学

    摘要: 本发明公布了一种自然场景图片中的文本字体的识别方法,通过图片合成方法获得大量融合不同字体文本的具体类似真实效果的自然场景图片,利用图片训练得到字体识别器和文本定位器,通过文本定位器从互联网图片中定位出更多文本图片,再利用迁移学习方法,通过字体识别器从图片中进一步学习,进一步提高识别的准确度。本发明采用自动合成高质量训练图片的方案,避免了耗时耗力的人工标注,大幅度降低成本,使得字体分类器具有更好的识别精度。此外,本发明引入迁移学习方法,充分利用大量无字体标签的图片,进一步增强字体分类器的准确度。

    一种基于双模态学习的矢量字体生成方法

    公开(公告)号:CN114298181B

    公开(公告)日:2024-06-21

    申请号:CN202111555201.4

    申请日:2021-12-17

    申请人: 北京大学

    发明人: 连宙辉 王逸之

    摘要: 本发明公布了一种基于双模态学习的矢量字体生成方法,构建双模态学习的矢量字体生成模型DeepVecFont,包括图像编码器、序列编码器、图像解码器、序列解码器;通过学习少量参考字符的字形矢量图和字形位图两个模态的风格特征并进行模态融合,得到融合后统一的字体风格特征;再将融合后的字体风格特征输送到序列解码器和图像解码器中生成目标字符的矢量图和位图;进一步可通过可微分栅格化方法修正矢量字形,对生成的目标字符的字形矢量图进行修正,即得到矢量字体。本发明方法利用了字形位图和矢量图两种模态信息,并可修正生成的矢量字形中存在位置偏移问题,提升矢量字体生成的性能和精度。

    一种基于标准字形生成的自然场景文字识别方法

    公开(公告)号:CN112329803A

    公开(公告)日:2021-02-05

    申请号:CN201910716704.1

    申请日:2019-08-05

    申请人: 北京大学

    IPC分类号: G06K9/62 G06K9/34 G06N3/04

    摘要: 本发明公布了一种基于标准字形生成的文字识别方法,建立基于注意力机制和生成机制的神经网络模型,在每个时刻将注意力集中在图片的某个位置,利用该位置的神经网络特征,分别进行文字类别的预测和生成多字体标准字形,直到遍历图片中的所有文字为止,实现对一张包含一个或多个文字的自然场景图片中的文字进行识别和输出。本发明利用多字体字形生成,改进了注意力模块,提高了文字识别精度和字形生成质量,从而提升了文字识别的准确度。

    一种基于标准字形生成的自然场景文字识别方法

    公开(公告)号:CN112329803B

    公开(公告)日:2022-08-26

    申请号:CN201910716704.1

    申请日:2019-08-05

    申请人: 北京大学

    摘要: 本发明公布了一种基于标准字形生成的文字识别方法,建立基于注意力机制和生成机制的神经网络模型,在每个时刻将注意力集中在图片的某个位置,利用该位置的神经网络特征,分别进行文字类别的预测和生成多字体标准字形,直到遍历图片中的所有文字为止,实现对一张包含一个或多个文字的自然场景图片中的文字进行识别和输出。本发明利用多字体字形生成,改进了注意力模块,提高了文字识别精度和字形生成质量,从而提升了文字识别的准确度。