训练数据生成方法、模型训练方法、装置、设备及介质
摘要:
本申请提供了一种训练数据生成方法、模型训练方法、装置、设备及介质,属于自然语言处理技术领域。训练数据生成方法包括:根据初始文本数据,确定多个版块数据;确定各个版块数据与初始文本数据之间的第一关联关系以及多个版块数据之间的第二关联关系;根据第一关联关系和第二关联关系,确定多个版块数据的排版信息;基于排版信息对多个版块数据进行排版,得到目标文本数据;根据初始文本数据、目标文本数据以及目标文本数据中的版块数据与初始文本数据的映射关系,得到训练数据。根据本申请的实施例能够较为便捷地得到合理性和准确性相对较高的训练数据,在利用该训练数据训练识别模型时,可以有效提高训练效果。
0/0