- 专利标题: 文本的标准化处理方法、装置、电子设备及计算机介质
-
申请号: CN202011594885.4申请日: 2020-12-29
-
公开(公告)号: CN112700881B公开(公告)日: 2022-04-08
- 发明人: 滕召荣 , 刘斌 , 郝东林
- 申请人: 医渡云(北京)技术有限公司
- 申请人地址: 北京市海淀区花园北路35号9号楼8层801
- 专利权人: 医渡云(北京)技术有限公司
- 当前专利权人: 医渡云(北京)技术有限公司
- 当前专利权人地址: 北京市海淀区花园北路35号9号楼8层801
- 代理机构: 北京律智知识产权代理有限公司
- 代理商 王辉; 阚梓瑄
- 主分类号: G16H50/80
- IPC分类号: G16H50/80 ; G06F40/242 ; G06F40/247 ; G06F40/289
摘要:
本公开涉及一种文本的标准化处理方法、装置、电子设备及计算机可读介质,属于数据处理技术领域。该方法包括:获取原始信息文本,原始信息文本中包括待处理的原始文本;根据预先生成的信息文本同义词典对原始信息文本进行匹配,得到原始信息文本中的原始文本对应的目标文本;对目标文本进行分词处理,得到目标文本中所包含的各个有效文本成分;获取预先生成的文本成分规则集合,并将各个有效文本成分中不属于文本成分规则集合的有效文本成分作为标准文本成分;根据标准文本成分得到原始文本对应的标准化文本。本公开通过信息文本同义词典和文本成分规则集合,对原始文本进行归一化处理得到标准化文本,可以提高文本归一化的效率和准确率。
公开/授权文献
- CN112700881A 文本的标准化处理方法、装置、电子设备及计算机介质 公开/授权日:2021-04-23