发明公开
- 专利标题: 基于生物文献生成基因描述信息的方法、系统及介质
-
申请号: CN202410409237.9申请日: 2024-04-07
-
公开(公告)号: CN118445429A公开(公告)日: 2024-08-06
- 发明人: 肖濛 , 王学志 , 周园春 , 陈志坚 , 许萍
- 申请人: 中国科学院计算机网络信息中心
- 申请人地址: 北京市海淀区中关村南四街4号
- 专利权人: 中国科学院计算机网络信息中心
- 当前专利权人: 中国科学院计算机网络信息中心
- 当前专利权人地址: 北京市海淀区中关村南四街4号
- 代理机构: 北京君尚知识产权代理有限公司
- 代理商 李文涛
- 主分类号: G06F16/38
- IPC分类号: G06F16/38 ; G06F16/33 ; G06F40/211 ; G16B40/00
摘要:
本发明公开了基于生物文献生成基因描述信息的方法、系统及介质,涉及生命科学领域,本发明通过获取与目标基因关联的生物文献,对获取的生物文献进行句子拆分和过滤,生成初级关键句集合;对生成的初级关键句集合中的每个句子均进行评分,按照评分高低进行排序,生成最终关键句集合;将最终关键句集合输入大语言模型,生成基因描述信息。本发明能够提高基因描述信息自动生成的效率和质量,克服信息冗余、语义不连贯问题。