文本的标准化处理方法、装置、电子设备及计算机介质
摘要:
本公开涉及一种文本的标准化处理方法、装置、电子设备及计算机可读介质,属于数据处理技术领域。该方法包括:获取原始信息文本,原始信息文本中包括待处理的原始文本;根据预先生成的信息文本同义词典对原始信息文本进行匹配,得到原始信息文本中的原始文本对应的目标文本;对目标文本进行分词处理,得到目标文本中所包含的各个有效文本成分;获取预先生成的文本成分规则集合,并将各个有效文本成分中不属于文本成分规则集合的有效文本成分作为标准文本成分;根据标准文本成分得到原始文本对应的标准化文本。本公开通过信息文本同义词典和文本成分规则集合,对原始文本进行归一化处理得到标准化文本,可以提高文本归一化的效率和准确率。
0/0