发明公开
- 专利标题: 文本标点检测方法、计算机设备及存储介质
-
申请号: CN202111547437.3申请日: 2021-12-16
-
公开(公告)号: CN114298032A公开(公告)日: 2022-04-08
- 发明人: 申资卓 , 章继东 , 巩捷甫 , 宋巍 , 盛志超 , 王士进 , 陈志刚 , 胡国平 , 秦兵 , 刘挺
- 申请人: 科大讯飞股份有限公司 , 河北省讯飞人工智能研究院 , 中科讯飞互联(北京)信息科技有限公司
- 申请人地址: 安徽省合肥市合肥市高新开发区望江西路666号; ;
- 专利权人: 科大讯飞股份有限公司,河北省讯飞人工智能研究院,中科讯飞互联(北京)信息科技有限公司
- 当前专利权人: 科大讯飞股份有限公司,河北省讯飞人工智能研究院,中科讯飞互联(北京)信息科技有限公司
- 当前专利权人地址: 安徽省合肥市合肥市高新开发区望江西路666号; ;
- 代理机构: 深圳市力道知识产权代理事务所
- 代理商 何姣
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/194 ; G06K9/62
摘要:
本申请涉及语言处理技术领域,并公开了一种文本标点检测方法、计算机设备及存储介质,所述方法包括:获取待识别文本,将所述待识别文本输入预训练的目标语言模型,其中,所述目标语言模型为基于目标训练样本对预设语言模型进行训练后,得到的融合了用于分析文本中字符的上下文信息和词性的网络层,所述目标训练样本为基于回译数据增强策略对文本数据进行标点修正后,得到的文本数据;基于所述目标语言模型分析所述待识别文本中字符的上下文信息和词性,得到所述待识别文本的标点标签序列;基于所述标点标签序列对所述待识别文本进行标点检测。旨在提高对文本标点检测的准确性。