专利检索 ap:("上海恒企教育培训有限公司") AND inv:"刘杰鹏" 第 1 页

1.

发明授权
一种基于web检索和新词发现的领域词典构建方法有权

公开(公告)号：CN111325018B

公开(公告)日：2023-08-11

申请号：CN202010068095.6

申请日：2020-01-21

申请人： 上海恒企教育培训有限公司

发明人： 杜梦豪 , 赵琨 , 刘杰鹏 , 丁健 , 梁栋彬 , 袁显峰

IPC分类号： G06F40/242 , G06F40/289 , G06F40/211 , G06F40/58 , G06F16/332 , G06F16/951

摘要： 本发明公开了一种基于web检索和新词发现的领域词典构建方法，针对文本数据的多样性和丰富性(包含网络数据和文献数据)，以及新词中也存在领域词等特点，提出一种基于web检索和新词发现的领域词典构建方法。该方法由以下两部分组成：基于种子词典爬取网络数据，然后基于自定义的抽取模式抽取领域词；基于互信息和左右熵学习字与字之间的自由度和粘合度，然后基于BiLstm‑CRF实现新词发现。本发明与现有的技术相比的优点在于：本发明基于互信息和左右熵学习字与字之间的粘合度和自由度，然后基于BiLstm‑CRF模型学习文本的上下文信息，整体提升低频词的识别率,基于检索和统计的方法，对抽取的新词和发现的词进行校验,省去人工校验，能够高抽取的领域词的质量。

2.

发明公开
一种基于web检索和新词发现的领域词典构建方法审中-公开

公开(公告)号：CN111325018A

公开(公告)日：2020-06-23

申请号：CN202010068095.6

申请日：2020-01-21

申请人： 上海恒企教育培训有限公司

发明人： 杜梦豪 , 赵琨 , 刘杰鹏 , 丁健 , 梁栋彬 , 袁显峰

IPC分类号： G06F40/242 , G06F40/289 , G06F40/211 , G06F40/58 , G06F16/332 , G06F16/951

摘要： 本发明公开了一种基于web检索和新词发现的领域词典构建方法，针对文本数据的多样性和丰富性(包含网络数据和文献数据)，以及新词中也存在领域词等特点，提出一种基于web检索和新词发现的领域词典构建方法。该方法由以下两部分组成：基于种子词典爬取网络数据，然后基于自定义的抽取模式抽取领域词；基于互信息和左右熵学习字与字之间的自由度和粘合度，然后基于BiLstm-CRF实现新词发现。本发明与现有的技术相比的优点在于：本发明基于互信息和左右熵学习字与字之间的粘合度和自由度，然后基于BiLstm-CRF模型学习文本的上下文信息，整体提升低频词的识别率,基于检索和统计的方法，对抽取的新词和发现的词进行校验,省去人工校验，能够高抽取的领域词的质量。