构建配置文件以及抽取结构化信息的方法、装置

    公开(公告)号:CN110162786B

    公开(公告)日:2024-02-27

    申请号:CN201910329838.8

    申请日:2019-04-23

    Abstract: 本发明提供了一种构建配置文件以及抽取结构化信息方法、装置,构建配置文件的方法为:确定构建的配置文件对应的应用领域;获取对应应用领域的候选句;获取对应应用领域的属性信息;根据候选句与属性信息构建对应应用领域的配置文件。抽取结构化信息的方法为:获取用户输入的待处理文本以及与待处理文本所属应用领域对应的配置文件;对待处理文本进行分词处理得到分词处理后的文本数据;根据配置文件中的候选句从文本数据中抽取目标语句;根据配置文件中的属性值从目标语句中抽取目标信息;根据配置文件中属性与属性值之间的对应关系将所抽取的目标信息添加到对应的属性中,得到对应待处理文本的结构化信息。本发明能够提升配置文件的生成效率。

    基于用户搜索日志的兴趣实体获得方法及装置

    公开(公告)号:CN103399879B

    公开(公告)日:2017-06-06

    申请号:CN201310298364.8

    申请日:2013-07-16

    Inventor: 戴岱 李大任

    Abstract: 本发明提供一种基于用户搜索日志的兴趣实体获得方法及装置。本发明实施例通过对待匹配的Session段中所包括的每个所述用户搜索日志的query和title进行切词处理,以获得每个所述用户搜索日志的第一term,进而根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体,使得能够利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体,由于采用相关匹配方法即匹配出与每个所述用户搜索日志的第一term相关的候选实体,而不再采用完整匹配方法即直接匹配出完整的兴趣实体的名称,从而提高了兴趣实体的召回率。

    构建配置文件以及抽取结构化信息的方法、装置

    公开(公告)号:CN110162786A

    公开(公告)日:2019-08-23

    申请号:CN201910329838.8

    申请日:2019-04-23

    Abstract: 本发明提供了一种构建配置文件以及抽取结构化信息方法、装置,构建配置文件的方法为:确定构建的配置文件对应的应用领域;获取对应应用领域的候选句;获取对应应用领域的属性信息;根据候选句与属性信息构建对应应用领域的配置文件。抽取结构化信息的方法为:获取用户输入的待处理文本以及与待处理文本所属应用领域对应的配置文件;对待处理文本进行分词处理得到分词处理后的文本数据;根据配置文件中的候选句从文本数据中抽取目标语句;根据配置文件中的属性值从目标语句中抽取目标信息;根据配置文件中属性与属性值之间的对应关系将所抽取的目标信息添加到对应的属性中,得到对应待处理文本的结构化信息。本发明能够提升配置文件的生成效率。

    基于用户搜索日志的兴趣实体获得方法及装置

    公开(公告)号:CN103399879A

    公开(公告)日:2013-11-20

    申请号:CN201310298364.8

    申请日:2013-07-16

    Inventor: 戴岱 李大任

    Abstract: 本发明提供一种基于用户搜索日志的兴趣实体获得方法及装置。本发明实施例通过对待匹配的Session段中所包括的每个所述用户搜索日志的query和title进行切词处理,以获得每个所述用户搜索日志的第一term,进而根据预先设置的实体库,匹配出与每个所述用户搜索日志的第一term相关的候选实体,使得能够利用所述Session段的特征、所述候选实体的特征、以及所述Session段与所述候选实体的关联特征中的至少一项,对所述候选实体进行过滤,以获得兴趣实体,由于采用相关匹配方法即匹配出与每个所述用户搜索日志的第一term相关的候选实体,而不再采用完整匹配方法即直接匹配出完整的兴趣实体的名称,从而提高了兴趣实体的召回率。

    抽取结构化信息的方法、装置、设备和计算机存储介质

    公开(公告)号:CN110163257A

    公开(公告)日:2019-08-23

    申请号:CN201910330632.7

    申请日:2019-04-23

    Inventor: 贾巍 戴岱 肖欣延

    Abstract: 本发明提供一种抽取结构化信息的方法、装置、设备和计算机存储介质,其中所述方法包括:获取用户输入的待处理文本,并确定所述待处理文本的领域;确定与所述待处理文本的领域对应的信息抽取模型,其中所确定的信息抽取模型为阅读理解模型、序列标注模型以及序列生成模型中的一种;将所述待处理文本作为输入,输入到所确定的信息抽取模型中,将所确定的信息抽取模型的输出结果作为所述待处理文本的结构化信息。本发明能够提升结构化信息的抽取准确性。

Patent Agency Ranking