一种面向中文医疗文本命名实体识别的方法

    公开(公告)号:CN111079377B

    公开(公告)日:2022-12-13

    申请号:CN201911223532.0

    申请日:2019-12-03

    摘要: 本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID‑CNN‑CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。

    一种基于混合变异策略的网络协议漏洞挖掘方法

    公开(公告)号:CN115238822A

    公开(公告)日:2022-10-25

    申请号:CN202210998579.X

    申请日:2022-08-19

    摘要: 一种基于混合变异策略的网络协议漏洞挖掘方法,它属于网络协议的漏洞挖掘技术领域。本发明解决了现有网络协议漏洞挖掘方法对未知网络协议漏洞挖掘能力差,且现有网络协议漏洞挖掘方法仅仅针对于单个网络协议,无法适用于不同网络协议的漏洞挖掘问题。本发明基于改进的生成对抗网络模型和线下漏洞知识库指导生成样本数据变异以提高漏洞触发率,进而生成更有效、针对性更强的测试用例,减少对漏洞挖掘无效测试用例的生成,可以智能高效地挖掘出未知网络协议的漏洞。本发明方法适用于大部分不同网络协议,大大减少人工分析数据帧的时间,可以迁移应用在不同网络协议上。本发明方法可以应用于网络协议的漏洞挖掘。

    一种基于改进Sarsa算法的路径规划方法

    公开(公告)号:CN113467481B

    公开(公告)日:2022-10-25

    申请号:CN202110918358.2

    申请日:2021-08-11

    IPC分类号: G05D1/02

    摘要: 一种基于改进Sarsa算法的路径规划方法,属于强化学习和路径规划领域。本发明为了解决基于传统Sarsa算法的路径规划过程存在规划收敛速度较慢、规划效率较低的问题。本发明针对于待进行路径规划的区域建立地图模型,引入路径矩阵P(s,a),在智能体探索的过程中,动态调整贪婪因子ε,采用ε‑greedy策略进行动作选择,智能体采取动作a后,环境会反馈一个奖励R并进入到下一个状态s′;并基于路径矩阵更新Q值表,从而基于改进的Sarsa算法实现路径规划。主要用于机器人的路径规划。

    一种在病历中快速提取十二导联心电图的方法

    公开(公告)号:CN114519369A

    公开(公告)日:2022-05-20

    申请号:CN202210066080.5

    申请日:2022-01-20

    摘要: 本发明属于计算机视觉技术领域,具体涉及一种在病历中快速提取十二导联心电图的方法。本发明包括病历数据的预处理以及手工定义特征的二次细化,使用该二次细化可以加速人工标记过程,加快了模型训练过程。本发明通过定义卷积神经网络EcgNet;结合设置特征和卷积神经神经网络训练模型实现自动提取十二导联心电图,经过检验该模型提取的十二导联心电图具有单边100%的准确率,提取的心电图达到人工提取的水平。本发明可以快速精准的从病历数据中提取出满足要求的十二导联心电图,训练好模型后的提取过程快速且不需要人力参与,极大地节省了人力物力,加速了心血管疾病患者的临床数据集的构建。

    一种四险一金领域政策法规文本实体识别方法

    公开(公告)号:CN112836046A

    公开(公告)日:2021-05-25

    申请号:CN202110039836.2

    申请日:2021-01-13

    摘要: 本发明属于命名实体识别技术领域,具体涉及一种四险一金领域政策法规文本实体识别方法。本发明通过预训练语言模型BERT得到每个字符基于上下文特征动态生成的具有上下文语义信息的字向量,通过word2vec中的skip‑gram模型得到每个词语的词向量,将具有上下文语义信息的字向量和其所在的词的词向量利用维度拼接的方式进行特征融合,得到联合字词向量,不仅可以弥补少量标注样本特征不足和字符语义提取不充分的问题,还为字向量补充了词级短语信息,从而在一定程度上提高模型的准确率。本发明可以有效解决四险一金领域命名实体识别任务中标注数据不足以及识别精度不高的问题。

    一种基于结构化查询语言语句的源信息追踪方法

    公开(公告)号:CN102402615B

    公开(公告)日:2013-02-27

    申请号:CN201110434707.X

    申请日:2011-12-22

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种基于结构化查询语言语句的源信息追踪方法。首先将SQL语句按其不同的结构进行分类,之后对不同类型的SQL语句进行逆向处理,在得到源信息后将源信息进行存储,并在源信息上再次执行原SQL语句,与之前得到的结果集进行对比,得出结论。该源信息查询方法已经通过实际数据进行了验证,验证结果证明该方法与其他数据血缘方法相比,可以在原有SQL的基础上,直接对SQL语句进行处理,将其有效的转化成源信息查询语句,并成功查找到对应的源信息。本发明提供的数据追踪方法适用于关系数据库中源信息的查询,可应用在各领域中对源信息进行的查询和存储。

    一种基于机器学习的从半结构化文档中提取问答对的方法

    公开(公告)号:CN111078875B

    公开(公告)日:2022-12-13

    申请号:CN201911222877.4

    申请日:2019-12-03

    IPC分类号: G06F16/35 G06F16/84 G06N3/04

    摘要: 本发明属于自然语言处理技术领域,具体涉及一种基于机器学习的从半结构化文档中提取问答对的方法。本发明应用机器学习的方法,通过应用Apriori进行特征选择和朴素贝叶斯分类方法进行分类,得到半结构化文本中的答案句。本发明结合命名实体识别和依存句法分析理论,将答案句转为对应的问句。命名实体识别采用crf+BiLstm神经网络模型,识别答案句中的实体,补充到网络爬取的实体中。句法分析通过揭示句子中各个词之间的依存关系,从而在问句生成时替换依存于实体的词,得到合理的问句。本发明通过从半结构化文档中提取高质量的问答对,为以后构建问答系统奠定了良好的基础。