发明授权
- 专利标题: 文本处理方法及装置
-
申请号: CN202011133952.2申请日: 2020-10-21
-
公开(公告)号: CN112257420B公开(公告)日: 2024-06-18
- 发明人: 蒋荣正 , 夏龙 , 马楠 , 杨明祺 , 郭常圳
- 申请人: 北京猿力未来科技有限公司
- 申请人地址: 北京市朝阳区广顺南大街8号院1号楼6层F01-03、05-10单元
- 专利权人: 北京猿力未来科技有限公司
- 当前专利权人: 北京猿力未来科技有限公司
- 当前专利权人地址: 北京市朝阳区广顺南大街8号院1号楼6层F01-03、05-10单元
- 代理机构: 北京智信禾专利代理有限公司
- 代理商 刘晓楠
- 主分类号: G06F40/242
- IPC分类号: G06F40/242
摘要:
本说明书提供文本处理方法及装置,其中所述文本处理方法包括:获取携带有多音字标识的初始文本,初始文本中包含至少一个多音字;确定初始文本对应的第i个拼音序列,并根据多音字标识和初始文本构建至少一个包含多音字的元词组,其中i从1取值且i为正整数;根据第i个拼音序列确定元词组的词组拼音序列,并将词组拼音序列输入至文本生成模块处理,获得词组拼音序列对应的参考词组;在元词组和参考词组不一致的情况下,i自增1,并执行确定初始文本对应的第i个拼音序列步骤;在元词组和参考词组一致的情况下,基于多音字标识、初始文本和第i个拼音序列创建文本拼音组,并写入多音字文本库。
公开/授权文献
- CN112257420A 文本处理方法及装置 公开/授权日:2021-01-22