-
公开(公告)号:CN111291154A
公开(公告)日:2020-06-16
申请号:CN202010054280.X
申请日:2020-01-17
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F16/33
摘要: 本发明公开了一种方言样本数据抽取方法,该方法包括:获取多个方言区的第一方言及所述多个方言区中每个方言区对应的城市数据,其中一个方言区对应一个城市;将第一方言相同的方言区分类成同一方言组别,并得到多个方言组;根据每个方言区对应的城市数据,对每个方言组进行排序,并从每个排序后的方言组中确定每个方言组的目标方言区;获取每个方言组的目标方言区对应的城市的医美对话数据;将获取的每个方言组对应的医美对话数据作为方言样本数据。因此本发明在机器学习数据选择上理论上数据需要覆盖所有的官话区,这样才能够增强模型的泛化能力。
-
公开(公告)号:CN111221955A
公开(公告)日:2020-06-02
申请号:CN202010022812.1
申请日:2020-01-09
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F16/332 , G06F16/35
摘要: 本发明公开了一种基于少量数据的访客意图数据预抽取方法,包括以下步骤:S1:使用正则表达式在访客会话数据中抽取数据,其中,所述的数据包括意图数据;S2:通过语言模型,从步骤S1中所获取的数据进行标注后训练一个分类器;S3:使用步骤S2的分类器对未标注过的数据进行预测,筛选出意图数据继续标注;S4:在步骤S3中预测数据的准确率小于预设值时,则执行步骤S1;否则,结束。通过本发明的方案更加减少垃圾数据的空间占用,并且节省时间和人力。
-
公开(公告)号:CN110472120A
公开(公告)日:2019-11-19
申请号:CN201910676168.7
申请日:2019-07-25
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F16/951 , G06F16/21 , G06F16/23 , G06F16/31 , G06F17/27 , G06Q30/06 , G06Q50/00 , G06Q50/16
摘要: 本发明公开了一种基于社交网络的租房信息收集方法及系统,其通过网络爬虫进行爬取预设的社交网络的租房信息以及该租房信息对应的网址信息;通过命名实体识别技术抽取出租房信息里的实体信息,并根据抽取的实体信息进行构建房源数据库;通过网络爬虫定期访问所述租房信息对应的网址信息,判断所述租房信息是否为过期信息,并根据判断结果对所述房源数据库进行更新;不仅能够提高租房信息的收集效率,而且保证信息的有效性,避免无效信息的干扰,用户体验更好。
-
公开(公告)号:CN112328755B
公开(公告)日:2022-08-23
申请号:CN202011037649.2
申请日:2020-09-28
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F16/332 , G06F40/295 , G06F40/35
摘要: 本发明公开了一种问答系统、问答机器人及其FAQ问答库召回方法,其包括:获取FAQ问答库中的问答话术,问答话术包括一个以上问题和一个答案组成的问答对;对问答话术进行意图识别和命名实体识别,获取问答话术的意图识别结果和命名实体识别结果;将意图识别结果、命名实体识别结果、问答话术拼接形成三元组识别模板;获取访客问题,并对访客问题进行意图识别和命名实体识别,获取访客问题的意图识别结果和命名实体识别结果;将访客问题的意图识别结果和命名实体识别结果与三元组识别模板进行匹配,得到访客问题对应的问答话术,并将该问答话术中对应的答案返回给访客;采用该模板匹配的方式,与传统的语义相似度匹配相比,可以有效的提高FAQ的召回率。
-
公开(公告)号:CN111581195A
公开(公告)日:2020-08-25
申请号:CN202010353465.0
申请日:2020-04-29
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F16/215 , G06N20/00
摘要: 本发明公开了一种质检标注数据的方法,通过如下步骤实现对标注数据的质检:步骤101,按照标准规则进行标注标准数据,并输出结果,将原数据记为质检数据,标注结果记为质检数据标准;步骤102,在待标注数据中插入质检数据,所述质检数据为具有标准标注结果的标准数据,所述质检数据带有标签;步骤103,将包含质检数据和待标注数据的数据进行标注,得到标注结果;步骤104,将带有标签的质检数据的标注结果抽取出来与质检数据标准进行比对,得到的比对结果即为标注数据的质检结果。本发明还公开了采用上述方法的系统及装置。本发明的优点在于:极大避免了质检时由于人工质检的主观原因造成的误判,保证标注数据的准确性,提高质检的效率,降低耗时。
-
公开(公告)号:CN111275094A
公开(公告)日:2020-06-12
申请号:CN202010054282.9
申请日:2020-01-17
申请人: 厦门快商通科技股份有限公司
摘要: 本发明公开了一种基于机器学习的数据标注方法和装置以及设备。其中,所述方法包括:通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注,和对该分别标注的不同类别的数据进行关联,以及对该经关联后的不同类别的标注数据进行联合学习。通过上述方式,能够实现兼容多种类别的标注数据的联合学习。
-
公开(公告)号:CN110995641A
公开(公告)日:2020-04-10
申请号:CN201910944561.X
申请日:2019-09-30
申请人: 厦门快商通科技股份有限公司
摘要: 本申请提供一种骚扰信息识别方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:在客户端的浏览器打开输入框后,监听在所述输入框中输入内容对应的按键信息;根据是否监听到所述输入内容对应的按键信息,判断所述输入内容是否为骚扰信息。本方案中,访客在输入框敲击键盘时浏览器不断监听按键变化,可以根据按键变化判断是不是模拟的访客,相较于现有技术,本方案不仅能够准确识别模拟访客,而且把防御方案部署在了客户端,减少了服务器端的压力,减少了资源消耗。
-
公开(公告)号:CN111291154B
公开(公告)日:2022-08-23
申请号:CN202010054280.X
申请日:2020-01-17
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F16/33
摘要: 本发明公开了一种方言样本数据抽取方法,该方法包括:获取多个方言区的第一方言及所述多个方言区中每个方言区对应的城市数据,其中一个方言区对应一个城市;将第一方言相同的方言区分类成同一方言组别,并得到多个方言组;根据每个方言区对应的城市数据,对每个方言组进行排序,并从每个排序后的方言组中确定每个方言组的目标方言区;获取每个方言组的目标方言区对应的城市的医美对话数据;将获取的每个方言组对应的医美对话数据作为方言样本数据。因此本发明在机器学习数据选择上理论上数据需要覆盖所有的官话区,这样才能够增强模型的泛化能力。
-
公开(公告)号:CN112328755A
公开(公告)日:2021-02-05
申请号:CN202011037649.2
申请日:2020-09-28
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F16/332 , G06F40/295 , G06F40/35
摘要: 本发明公开了一种问答系统、问答机器人及其FAQ问答库召回方法,其包括:获取FAQ问答库中的问答话术,问答话术包括一个以上问题和一个答案组成的问答对;对问答话术进行意图识别和命名实体识别,获取问答话术的意图识别结果和命名实体识别结果;将意图识别结果、命名实体识别结果、问答话术拼接形成三元组识别模板;获取访客问题,并对访客问题进行意图识别和命名实体识别,获取访客问题的意图识别结果和命名实体识别结果;将访客问题的意图识别结果和命名实体识别结果与三元组识别模板进行匹配,得到访客问题对应的问答话术,并将该问答话术中对应的答案返回给访客;采用该模板匹配的方式,与传统的语义相似度匹配相比,可以有效的提高FAQ的召回率。
-
公开(公告)号:CN110995940A
公开(公告)日:2020-04-10
申请号:CN201910944564.3
申请日:2019-09-30
申请人: 厦门快商通科技股份有限公司
摘要: 本申请提供一种骚扰访客识别方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:在与访客的对话窗口中,向访客发送图片形式的问题内容;监听所述访客对于所述图片形式的问题内容的回复速度及回复内容;根据所述回复速度及回复内容判断该访客是否为骚扰访客。用软件模拟用户请求的骚扰访客获知问题为图片信息时,不能立刻识别出该问题内容,需要时间调用图片转文字的工具,因此可以根据回复速度及回复内容来识别骚扰访客,相较于现有技术,能够大范围的拦截用软件模拟用户请求的骚扰访客,避免骚扰访客的干扰及占用人工客服时间。
-
-
-
-
-
-
-
-
-