Invention Publication
- Patent Title: 词库更新方法及装置
- Patent Title (English): Lexicon updating method and device
-
Application No.: CN201710313846.4Application Date: 2017-05-05
-
Publication No.: CN107180084APublication Date: 2017-09-19
- Inventor: 蒋化冰 , 陈岳峰 , 马晨星 , 张俊杰 , 谭舟 , 王振超 , 梁兰 , 徐志强 , 严婷 , 郦莉
- Applicant: 上海木爷机器人技术有限公司
- Applicant Address: 上海市长宁区广顺路33号2幢402室
- Assignee: 上海木爷机器人技术有限公司
- Current Assignee: 上海木木聚枞机器人科技有限公司
- Current Assignee Address: 上海市长宁区广顺路33号2幢402室
- Agency: 北京太合九思知识产权代理有限公司
- Agent 刘戈
- Main IPC: G06F17/30
- IPC: G06F17/30

Abstract:
本发明实施例提供一种词库更新方法及装置,该方法包括:以若干通识语句样本和若干特定领域语句样本构成训练样本集合来进行分类模型的训练,在分类模型的输出侧获得由各训练样本分别对应的词语构成的词语集合。基于各训练样本的分类结果确定词语集合中各词语对分类模型分类正确率的贡献权重,从中选择出对分类模型分类正确率贡献程度最高的X个词语。将选出的X个词语分别与词频最高的M个词语进行发音相似度计算,根据发音相似度和预设阈值的比较结果确定X个词语对应的热词库。根据拼音相似度和预设阈值的比较结果从X个词语中选择出属于特定领域的热词,构成热词库,加入到原始识别词库中,从而提高在特定领域应用场景中对词语的识别效果。
Public/Granted literature
- CN107180084B 词库更新方法及装置 Public/Granted day:2020-04-21
Information query