-
公开(公告)号:CN112257420B
公开(公告)日:2024-06-18
申请号:CN202011133952.2
申请日:2020-10-21
申请人: 北京猿力未来科技有限公司
IPC分类号: G06F40/242
摘要: 本说明书提供文本处理方法及装置,其中所述文本处理方法包括:获取携带有多音字标识的初始文本,初始文本中包含至少一个多音字;确定初始文本对应的第i个拼音序列,并根据多音字标识和初始文本构建至少一个包含多音字的元词组,其中i从1取值且i为正整数;根据第i个拼音序列确定元词组的词组拼音序列,并将词组拼音序列输入至文本生成模块处理,获得词组拼音序列对应的参考词组;在元词组和参考词组不一致的情况下,i自增1,并执行确定初始文本对应的第i个拼音序列步骤;在元词组和参考词组一致的情况下,基于多音字标识、初始文本和第i个拼音序列创建文本拼音组,并写入多音字文本库。
-
公开(公告)号:CN112686041A
公开(公告)日:2021-04-20
申请号:CN202110013709.5
申请日:2021-01-06
申请人: 北京猿力未来科技有限公司
IPC分类号: G06F40/289 , G06F40/216
摘要: 本申请提供一种拼音标注方法及装置,其中所述拼音标注方法包括:对待处理文本进行分词处理生成多个词单元集合,所述待处理文本中包含至少一个多音字,根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注,生成所述多个词单元集合分别对应的初始拼音序列,对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列,并基于所述中间拼音序列生成所述待处理文本对应的语音数据,提取所述语音数据的第一音频特征,基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测,并根据预测结果确定所述至少一个多音字的拼音标注结果。
-
公开(公告)号:CN112686041B
公开(公告)日:2024-06-04
申请号:CN202110013709.5
申请日:2021-01-06
申请人: 北京猿力未来科技有限公司
IPC分类号: G06F40/289 , G06F40/216
摘要: 本申请提供一种拼音标注方法及装置,其中所述拼音标注方法包括:对待处理文本进行分词处理生成多个词单元集合,所述待处理文本中包含至少一个多音字,根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注,生成所述多个词单元集合分别对应的初始拼音序列,对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列,并基于所述中间拼音序列生成所述待处理文本对应的语音数据,提取所述语音数据的第一音频特征,基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测,并根据预测结果确定所述至少一个多音字的拼音标注结果。
-
公开(公告)号:CN112257420A
公开(公告)日:2021-01-22
申请号:CN202011133952.2
申请日:2020-10-21
申请人: 北京猿力未来科技有限公司
IPC分类号: G06F40/242
摘要: 本说明书提供文本处理方法及装置,其中所述文本处理方法包括:获取携带有多音字标识的初始文本,初始文本中包含至少一个多音字;确定初始文本对应的第i个拼音序列,并根据多音字标识和初始文本构建至少一个包含多音字的元词组,其中i从1取值且i为正整数;根据第i个拼音序列确定元词组的词组拼音序列,并将词组拼音序列输入至文本生成模块处理,获得词组拼音序列对应的参考词组;在元词组和参考词组不一致的情况下,i自增1,并执行确定初始文本对应的第i个拼音序列步骤;在元词组和参考词组一致的情况下,基于多音字标识、初始文本和第i个拼音序列创建文本拼音组,并写入多音字文本库。
-
-
-