一种基于编码和机器学习的多语种识别方法

发明授权

请登陆查看更多内容

专利标题： 一种基于编码和机器学习的多语种识别方法
申请号： CN201611001398.6

申请日： 2016-11-14
公开(公告)号： CN106528535B

公开(公告)日： 2019-04-26
发明人: 王宇 , 徐晓燕 , 周渊 , 刘庆良 , 郑彩娟 , 王海平 , 黄成 , 周游 , 陈婷婷
申请人： 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
申请人地址： 北京市朝阳区霞光里8号承冀诚大厦二层
专利权人： 北京赛思信安技术股份有限公司,国家计算机网络与信息安全管理中心
当前专利权人： 北京赛思信安技术股份有限公司,国家计算机网络与信息安全管理中心
当前专利权人地址： 北京市朝阳区霞光里8号承冀诚大厦二层
代理机构： 北京永创新实专利事务所
代理商 祗志洁
主分类号： G06F17/27
IPC分类号： G06F17/27

摘要：

本发明提供了一种基于编码和机器学习的多语种识别方法，是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别，编码识别时还统计各语种的单词量，当机器学习单元的识别结果在编码识别单元的判定区间内，且二者识别的语言一致时，输出单一识别语言，当编码识别单元识别到多种语言时，进行混合语言规则判断，若第二语言在文本中的单词量比例达到设定比例，则判定文本为混合语言。本发明对长文本可先作随机采样再判定，以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别，同时支持混合语种文本识别，在海量数据分析以及舆情监控中具有广泛的应用前景。

公开/授权文献

CN106528535A 一种基于编码和机器学习的多语种识别方法公开/授权日：2017-03-22

信息查询

中国专利公布公告 Global Dossier Espacenet