一种基于编码转换的多国语分词方法

发明授权

请登陆查看更多内容

专利标题： 一种基于编码转换的多国语分词方法
申请号： CN201911324149.4

申请日： 2019-12-20
公开(公告)号： CN111178061B

公开(公告)日： 2023-03-10
发明人: 杜权 , 徐萍
申请人： 沈阳雅译网络技术有限公司
申请人地址： 辽宁省沈阳市和平区东软电脑城C座11楼
专利权人： 沈阳雅译网络技术有限公司
当前专利权人： 沈阳雅译网络技术有限公司
当前专利权人地址： 辽宁省沈阳市和平区东软电脑城C座11楼
代理机构： 沈阳新科知识产权代理事务所
代理商 李晓光
主分类号： G06F40/284
IPC分类号： G06F40/284 ; G06F40/151

摘要：

本发明公开一种基于编码转换的多国语分词方法，包括以下步骤：1)数据预处理：输入待分词的数据和语言标签，过滤数据中的多余空格并调整数据为UTF‑8编码格式；2)加载编码转换文件：根据步骤1)中输入的语言标签加载对应语言的编码转换资源文件；3)编码转换：使用步骤2)加载的编码转换资源文件对数据进行编码转换；4)分词：使用标点、空格等符号对编码转换后的数据进行分词处理。本发明提出的基于编码转换的多国语分词方法能够同时满足多国语言的不同编码特征，有针对性的根据不同语言的特征进行分析和编码转换，满足使用一种分词方法能够同时对多国语言分词的需求。

公开/授权文献

CN111178061A 一种基于编码转换的多国语分词方法公开/授权日：2020-05-19

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/279	..文字实体的识别
G06F40/284	...词汇分析，例如标记或搭配词