一种基于机器学习的文章断句方法

    公开(公告)号:CN111401004B

    公开(公告)日:2023-12-22

    申请号:CN202010232911.2

    申请日:2020-03-28

    发明人: 李鑫 沈伟 鲍琦

    IPC分类号: G06F40/131 G06N20/00

    摘要: 本发明提出的一种基于机器学习的文章断句方法,首先获取文本中的分隔符号,提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记;将文本的特征标记输入预设的切分模型,通过切分模型从特征标记中筛选有效分隔符合并输出;然后根据有效分割符号获得文本断句结果。本发明中,切分模型的输入为特征标记,特征标记的提取简化了切分模型对待断句文本的前期处理,使得切分模型的输入更加简洁并具有针对性,从而提高了断句效率。本发明向开发者和科研人员提供了相应的工具对化学专业领域的文档进行分句以保证数据处理后续步骤的顺利运行。

    一种基于机器学习的表格抽取方法

    公开(公告)号:CN111401010B

    公开(公告)日:2023-07-28

    申请号:CN202010219328.8

    申请日:2020-03-25

    发明人: 李鑫 郑磊 鲍琦

    摘要: 本发明提出的一种基于机器学习的表格抽取方法,包括:对原始xml文件进行预处理,获得预先选择的自动提取工具可识别的新xml文件;将新xml文件通过自动提取工具进行识别并转换成python可识别的二维列表;将表格标题和脚注从二维列表中分离出来,然后识别跨列子标题,并把子标题填充到对应的列;通过机器学习,区分出表头所在行的范围,然后合并表头;对跨行数据进行合并,获得最终表格数据。本发明实现了基于机器学习从格式为xml的文件中抽取清洗表格内容,保证了对xml文件信息的精确和完整的抽取。

    一种基于模板生成的化学反应抽取器和抽取方法

    公开(公告)号:CN111401050A

    公开(公告)日:2020-07-10

    申请号:CN202010232913.1

    申请日:2020-03-28

    发明人: 李鑫 张百成 鲍琦

    摘要: 本发明提出的一种基于模板生成的化学反应抽取方法,包括:对csv文件中的摘要和标题进行合并后切分,获得作为抽取程序输入对象的句子集合;将获取的句子集合队列化,并获得反应模板;将队列化的句子集合和反应模板加载到抽取程序中,抽取程序通过反应模板对句子集合进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;对抽取的化学实体和反应进行过滤,筛选反应;根据分类器对筛选出的反应进行分类。本发明通过构建自然语言处理系统从PubMed中自动提取涵盖化学物质的反应。考虑到文献中摘要作为总览全文的浓缩段落,因此本发明主要是从PubMed摘要中提取单个句子中的反应,此方法也可以处理描述多个反应的句子。

    一种基于机器学习的催化剂抽取方法

    公开(公告)号:CN111401054A

    公开(公告)日:2020-07-10

    申请号:CN202010220300.6

    申请日:2020-03-25

    发明人: 李鑫 沈伟 鲍琦

    IPC分类号: G06F40/284 G06N20/00

    摘要: 本发明提出的一种基于机器学习的催化剂抽取方法,包括以下步骤:获取文本,并将文本中的词语进行分解并标准化处理;通过化学领域的文字标注工具对分解后的词语标记相应的POS标记以及CHUNK标记,将带有POS标记和CHUNK标记的词语进行序列化形成特征序列;通过预设的抽取模型对特征序列进行催化剂实体的识别抽取。本发明首先通过词语分解,实现了文本的特征提取,并实现了对文本冗余信息的清洗,降低了后续处理的工作量,提高了工作效率;同时,通过特征提取,也实现了对文本的精炼,从而提高了信息抽取精确程度。且,本实施方式中,通过机器学习模型抽取催化剂,智能化程度高,并且可靠。

    一种基于机器学习的表格抽取方法

    公开(公告)号:CN111401010A

    公开(公告)日:2020-07-10

    申请号:CN202010219328.8

    申请日:2020-03-25

    发明人: 李鑫 郑磊 鲍琦

    摘要: 本发明提出的一种基于机器学习的表格抽取方法,包括:对原始xml文件进行预处理,获得预先选择的自动提取工具可识别的新xml文件;将新xml文件通过自动提取工具进行识别并转换成python可识别的二维列表;将表格标题和脚注从二维列表中分离出来,然后识别跨列子标题,并把子标题填充到对应的列;通过机器学习,区分出表头所在行的范围,然后合并表头;对跨行数据进行合并,获得最终表格数据。本发明实现了基于机器学习从格式为xml的文件中抽取清洗表格内容,保证了对xml文件信息的精确和完整的抽取。

    一种基于机器学习的文章断句方法

    公开(公告)号:CN111401004A

    公开(公告)日:2020-07-10

    申请号:CN202010232911.2

    申请日:2020-03-28

    发明人: 李鑫 沈伟 鲍琦

    IPC分类号: G06F40/131 G06N20/00

    摘要: 本发明提出的一种基于机器学习的文章断句方法,首先获取文本中的分隔符号,提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记;将文本的特征标记输入预设的切分模型,通过切分模型从特征标记中筛选有效分隔符合并输出;然后根据有效分割符号获得文本断句结果。本发明中,切分模型的输入为特征标记,特征标记的提取简化了切分模型对待断句文本的前期处理,使得切分模型的输入更加简洁并具有针对性,从而提高了断句效率。本发明向开发者和科研人员提供了相应的工具对化学专业领域的文档进行分句以保证数据处理后续步骤的顺利运行。