一种基于BERT的中文命名实体识别方法

    公开(公告)号:CN116402051A

    公开(公告)日:2023-07-07

    申请号:CN202310025297.6

    申请日:2023-01-09

    摘要: 本发明涉及字符编码技术领域,具体为一种基于BERT的中文命名实体识别方法,包括以下步骤:S1:对文本序列以单个字为对象进行编码得到向量序列XA;S2:根据分词得到的词及其中的字信息进行编码并求平均得到向量XB;S3:向量XA和向量XB分别经过变换融合得到向量XC;有益效果为:本发明提出的基于BERT的中文命名实体识别方法对文本进行编码时,不仅对单个字进行编码,而且要考虑词语中各个字之间的关系。首先,对字符串序列进行分词,然后对分词得到的词中单字进行编码并求平均得到平均向量,将单字向量和平均向量进行变换融合,充分挖掘了文本中的单字和词之间的信息,充分利用了文本的结构特征,加强了模型对文本的理解,提升了命名实体识别的效果。

    一种地址单元解析方法及装置
    2.
    发明公开

    公开(公告)号:CN116304799A

    公开(公告)日:2023-06-23

    申请号:CN202310094437.5

    申请日:2023-02-07

    摘要: 本发明涉及投票融合和地址单元解析领域,具体提供了一种地址单元解析方法及装置,具有如下步骤:S1、训练多个地址单元标注模型;S2、采用多个地址单元标注模型处理数据;S3、融合多个地址单元标注模型的处理结果;S4、从融合结果中提取地址单元标注信息。本发明的理论基础是综合绝对投票法和最大分值法融合标注结果,与现有技术相比,本发明既解决了绝对投票法在所有地址单元投票个数均未超过一半时的无法融合问题,又解决了最大分值法在数据类型分布不均衡时存在明显的偏向性和可信度较低问题。

    一种文本分类方法及系统
    3.
    发明公开

    公开(公告)号:CN118643373A

    公开(公告)日:2024-09-13

    申请号:CN202410790575.1

    申请日:2024-06-19

    摘要: 本发明涉及文本分类技术领域,具体为一种文本分类方法及系统,包括以下步骤:S1:训练多个文本分类模型;S2:采用多个文本分类模型处理数据;S3:融合多个文本分类模型的处理结果;S4:从融合结果中提取文本分类信息;有益效果为:本发明提出的文本分类方法及系统,首先统计所有文本类型的投票个数,如果最大投票个数超过总票数的一半,那么采用绝对多数投票法进行融合,否则表明预测结果的偏向性比较弱,那么采用软投票法进行融合;通过综合两种方法的优势。

    一种基于多目标优化稀疏自表示的高光谱图像波段选择方法

    公开(公告)号:CN114092750A

    公开(公告)日:2022-02-25

    申请号:CN202111419094.2

    申请日:2021-11-26

    发明人: 赵志航

    摘要: 本发明公开了一种基于多目标优化稀疏自表示的高光谱图像波段选择方法,属于高光谱图像处理技术领域。本发明的基于多目标优化稀疏自表示的高光谱图像波段选择方法将高光谱图像原始数据,经过变换,再构建稀疏自表示模型,依据稀疏自表示模型构建多目标优化模型,求解多目标模型,对Pareto解进行统计分析获取最终波段子集。该发明的基于多目标优化稀疏自表示的高光谱图像波段选择方法能够在误差项和稀疏约束项之间寻找最好的折中解决方法,避免在求解优化模型过程中平衡参数引入,具有很好的推广应用价值。

    一种基于字词信息融合的中文命名实体识别方法

    公开(公告)号:CN116861910A

    公开(公告)日:2023-10-10

    申请号:CN202310878207.8

    申请日:2023-07-18

    摘要: 本发明涉及自然语言处理技术领域,具体为一种基于字词信息融合的中文命名实体识别方法,包括以下步骤:单字信息编码;单字信息和词信息编码;向量XA和向量XB融合得到向量XC;使用CRF对向量XC进行解码;有益效果为:本发明提出的基于字词信息融合的中文命名实体识别方法,对原始文本进行编码时,不仅进行单个字的向量化,而且对字符串序列先进行分词,然后对分词得到的词进行向量化,并将单字向量和由单字组成的词的向量进行融合,充分挖掘了文本中的单字和词的信息,充分利用了文本的结构特征,加强了模型对文本的理解,提升了命名实体识别的准确率。

    一种面向地址识别的状态转移字典树创建方法及装置

    公开(公告)号:CN116303849A

    公开(公告)日:2023-06-23

    申请号:CN202310094247.3

    申请日:2023-02-07

    IPC分类号: G06F16/29 G06F16/36

    摘要: 本发明公开了一种面向地址识别的状态转移字典树创建方法及装置,属于数据处理及地址识别技术领域,该方法的实现方式如下:S1、创建地址词典库,将所有地址信息保存在词典库中;S2、根据地址词典库生成状态转移字典树,生成的字典树与地址词典库相对应;S3、根据状态转移字典树查找地址信息:根据匹配的地址名称状态值获取其在地址词典库中的地址信息。本发明能够提高地址识别速度、减少存储空间,同时能够建立地址词典库和状态转移字典树的关联,通过匹配结果确定对应地址信息,有助于后继处理和分析。

    一种果蔬图像识别方法及装置
    7.
    发明公开

    公开(公告)号:CN114580528A

    公开(公告)日:2022-06-03

    申请号:CN202210201137.8

    申请日:2022-03-02

    摘要: 本发明涉及模式识别技术领域,具体提供了一种果蔬图像识别方法,具有如下步骤:S1、通过弱分类器经过提升得到强分类器即Adaboost;S2、像素拉伸;S3、降维操作;S4、训练模型;S5、图像分类。与现有技术相比,本发明适用于不同规模的分类样本,针对果蔬图像分类中训练样本不足的问题,本发明所设计的方法,可以快速、准确的进行分类。本发明中的分类器模型具有超参数少、鲁棒性强、对训练样本的数量需求小的特点。

    基于多显著性特征融合的高光谱遥感图像分类方法及系统

    公开(公告)号:CN112990316A

    公开(公告)日:2021-06-18

    申请号:CN202110289048.9

    申请日:2021-03-18

    IPC分类号: G06K9/62 G06K9/46 G06K9/00

    摘要: 本发明公开一种基于多显著性特征融合的高光谱遥感图像分类方法及系统,涉及图像分类技术领域,采用技术方案包括:对原始高光谱遥感图像进行降维;利用扩展形态学方法EMP得到降维图像的形态学特征图;针对降维图像和形态学特征图,分别利用局部二值模式LBP和梯度直方图HOG提取纹理特征和梯度特征,再分别利用基于布尔映射的显著性BMS得到基于纹理和梯度的显著性特征,并执行先融合基于纹理和梯度的显著性特征、再整体融合所有显著性特征的操作,针对融合的最后结果,利用随机森林分类算法进行像素点的分类。本发明可以提高分类过程中的特征利用率,解决当前基于深度神经网络的高光谱遥感图像分类方法中模型调参困难、容易过拟合、训练代价高等问题。

    基于SDK规则引擎进行健康医疗数据质量检测的方法及系统

    公开(公告)号:CN112685400A

    公开(公告)日:2021-04-20

    申请号:CN202110085820.5

    申请日:2021-01-22

    摘要: 本发明公开了一种基于SDK规则引擎进行健康医疗数据质量检测的方法及系统,属于结构化和非结构化数据的质量检测与控制领域,本发明要解决的技术问题为如何实现可扩展、性能强且能适应多种数据源的数据质量检测,从而满足复杂场景下的数据处理需求,技术方案为:该方法是通过采集医疗健康大数据并上传至医疗健康大数据平台中,在医疗健康大数据处理系统中内置SDK开发包,用户通过SDK开发包自行开发基础规则,由SDK规则引擎对其进行解析和执行,实现复杂场景下数据处理的需求;具体如下:定义质量维度;根据SDK开发包创建基础规则;创建业务规则;创建检测任务;生成检测报告。