-
公开(公告)号:CN111158641A
公开(公告)日:2020-05-15
申请号:CN201911408326.7
申请日:2019-12-31
申请人: 中国科学院软件研究所
IPC分类号: G06F8/10 , G06F16/35 , G06F40/30 , G06F40/289
摘要: 本发明公开了一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置,包括采集用于提取功能点的需求文本,对所述需求文本进行条目化获取第一匹配数据集,并将所述第一匹配数据集进行中文分词,得到第二匹配数据集;将提取的所述第二匹配数据集的特征送入词分类模型,得到若干功能点词语;将若干所述功能点词语组成的若干功能点短语输入语言模型,得到各功能点短语的输出概率评分值,获取所述需求文本的事务类功能点。本发明无需人工构建字典词库,无需人工配置识别规则,提出了六个维度的16个特征来刻画功能点词语及其上下文的特性,实现了事务点识别的全过程自动化,提高估算的准确性和稳定性。
-
公开(公告)号:CN111158640A
公开(公告)日:2020-05-15
申请号:CN201911350243.7
申请日:2019-12-24
申请人: 中国科学院软件研究所
IPC分类号: G06F8/10 , G06F40/279 , G06F16/35 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于深度学习的一对多需求分析识别方法。本方法为:1)构建一对多的深度学习神经网络模型并对其进行训练;其中,深度学习神经网络模型包括一个编码器和m个解码器;所述编码器用于计算需求文本的隐藏层状态向量并将其发送给每个解码器;解码器对输入数据依次进行处理生成一隐藏层状态向量;然后根据编码器生成的隐藏层状态向量和解码器生成的隐藏层状态向量生成一全局对齐权重向量,然后将上下文向量和隐藏层状态向量连接后输入Softmax层进行预测并输出一功能项;2)利用深度学习神经网络模型对待处理需求文本进行预测,生成m个功能项;3)合并m个功能项中相似的功能项,获得该待处理需求文本的功能项识别结果。
-
公开(公告)号:CN111158640B
公开(公告)日:2021-06-01
申请号:CN201911350243.7
申请日:2019-12-24
申请人: 中国科学院软件研究所
IPC分类号: G06F8/10 , G06F40/279 , G06F16/35 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于深度学习的一对多需求分析识别方法。本方法为:1)构建一对多的深度学习神经网络模型并对其进行训练;其中,深度学习神经网络模型包括一个编码器和m个解码器;所述编码器用于计算需求文本的隐藏层状态向量并将其发送给每个解码器;解码器对输入数据依次进行处理生成一隐藏层状态向量;然后根据编码器生成的隐藏层状态向量和解码器生成的隐藏层状态向量生成一全局对齐权重向量,然后将上下文向量和隐藏层状态向量连接后输入Softmax层进行预测并输出一功能项;2)利用深度学习神经网络模型对待处理需求文本进行预测,生成m个功能项;3)合并m个功能项中相似的功能项,获得该待处理需求文本的功能项识别结果。
-
公开(公告)号:CN111158641B
公开(公告)日:2021-05-07
申请号:CN201911408326.7
申请日:2019-12-31
申请人: 中国科学院软件研究所
IPC分类号: G06F8/10 , G06F16/35 , G06F40/30 , G06F40/289
摘要: 本发明公开了一种基于语义分析和文本挖掘的事务类功能点自动识别方法,包括采集用于提取功能点的需求文本,对所述需求文本进行条目化获取第一匹配数据集,并将所述第一匹配数据集进行中文分词,得到第二匹配数据集;将提取的所述第二匹配数据集的特征送入词分类模型,得到若干功能点词语;将若干所述功能点词语组成的若干功能点短语输入语言模型,得到各功能点短语的输出概率评分值,获取所述需求文本的事务类功能点。本发明无需人工构建字典词库,无需人工配置识别规则,提出了六个维度的16个特征来刻画功能点词语及其上下文的特性,实现了事务点识别的全过程自动化,提高估算的准确性和稳定性。
-
公开(公告)号:CN111797612A
公开(公告)日:2020-10-20
申请号:CN202010412410.2
申请日:2020-05-15
申请人: 中国科学院软件研究所
IPC分类号: G06F40/211 , G06F40/284 , G06F40/295 , G06N20/00 , G06F8/77
摘要: 本发明提出一种自动化数据功能项抽取的方法,将需求文本根据标点符号划分为句子,抽取句子中每个单词的上下文特征;给句子中的每一个单词打上标签,作为标注数据;使用标注数据训练初始的CRF模型,迭代地使用该CRF模型预测未标注的数据,从中选取置信度高于置信度阈值的样本来扩充训练集合;使用扩后后的训练集合重新训练CRF模型,最终得到候选功能项集合;使用历史功能项训练面向功能项的语言模型;使用训练好的面向功能项的语言模型对候选功能项集合进行过滤,抽取符合的功能项。本方法从需求描述中进行数据功能项的自动化抽取,提高抽取的精度,代替人力抽取功能项,并降低抽取的成本。
-
-
-
-