发明授权
- 专利标题: 一种基于编码和机器学习的多语种识别方法
-
申请号: CN201611001398.6申请日: 2016-11-14
-
公开(公告)号: CN106528535B公开(公告)日: 2019-04-26
- 发明人: 王宇 , 徐晓燕 , 周渊 , 刘庆良 , 郑彩娟 , 王海平 , 黄成 , 周游 , 陈婷婷
- 申请人: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市朝阳区霞光里8号承冀诚大厦二层
- 专利权人: 北京赛思信安技术股份有限公司,国家计算机网络与信息安全管理中心
- 当前专利权人: 北京赛思信安技术股份有限公司,国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市朝阳区霞光里8号承冀诚大厦二层
- 代理机构: 北京永创新实专利事务所
- 代理商 祗志洁
- 主分类号: G06F17/27
- IPC分类号: G06F17/27
摘要:
本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。
公开/授权文献
- CN106528535A 一种基于编码和机器学习的多语种识别方法 公开/授权日:2017-03-22