用于为在线课程建立知识库的方法

    公开(公告)号:CN118020080A

    公开(公告)日:2024-05-10

    申请号:CN202180101405.2

    申请日:2021-08-06

    IPC分类号: G06N5/022

    摘要: 本公开内容提供了一种用于为在线课程建立知识库的方法。所述方法包括:从多个课程中获得多个概念,其中,所述多个课程包括视频和练习;将所述课程中包括的所述视频和所述练习中的每一项链接到所述多个概念中的一个或多个相关概念;以及将多个学生行为中的每个学生行为链接到所述多个概念中的一个或多个相关概念,其中,所建立的知识库包括以下各项:包括所述视频和所述练习的所述多个课程、所述多个学生行为、所述多个概念、所述视频与所述多个概念之间的链接、所述练习与所述多个概念之间的链接、所述学生行为与所述多个概念之间的链接。

    文档处理方法、文档摘要生成方法及装置

    公开(公告)号:CN115563240A

    公开(公告)日:2023-01-03

    申请号:CN202211035766.4

    申请日:2022-08-26

    申请人: 清华大学

    摘要: 本发明提供一种文档处理方法、文档摘要生成方法及装置,文档处理方法包括:获取待处理文档集以及关键词集;将关键词集中的关键词分别插入至待处理文档集中的各待处理文档中,得到待测序列;确定各待测序列的困惑度,并基于各待测序列的困惑度确定各待处理文档的第一评分结果;基于各待处理文档的第一评分结果对待处理文档集进行筛选,得到目标文档。文档摘要生成方法包括:基于关键词集中的各关键词从待处理文档集中抽取目标文档;基于目标文档生成摘要。本发明能够有效提高目标文档的有效性,进而保证了摘要的生成效果。

    一种基于预训练的慕课自适应学习系统构建方法和装置

    公开(公告)号:CN114567815A

    公开(公告)日:2022-05-31

    申请号:CN202210068224.0

    申请日:2022-01-20

    申请人: 清华大学

    摘要: 本发明公开了一种基于预训练的慕课自适应学习系统构建方法和装置,其中,该方法包括:获取第一预设时间内慕课平台记录的学生学习行为数据,以及预设条件下的辅助信息,辅助信息至少包括课程结构元信息和视频字幕文本;基于学生学习行为数据,以预设的粒度对学习行为日志进行聚合与处理,得到学生学习行为序列;基于辅助信息进行知识挖掘,获取课程结构元信息与视频的初始表示;基于学生学习行为序列和初始表示构建学习行为预训练模型,并采用掩码预测任务训练模型;将学习行为预训练模型应用于学习资源推荐和学习资源评估两个核心下游任务。本发明能够对慕课场景的学习行为、学习资源进行统一建模,构建出性能更强、更通用的自适应学习系统。

    概念抽取方法、装置、电子设备及存储介质

    公开(公告)号:CN112527977B

    公开(公告)日:2024-06-25

    申请号:CN202011241251.0

    申请日:2020-11-09

    申请人: 清华大学

    摘要: 本发明实施例提供一种概念抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的词表对待提取文本进行术语抽取,获取第一候选概念列表,并根据预设的知识图谱对待提取文本进行实体链接,获取第二候选概念列表;对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序,根据重排序的结果获取待提取文本的概念抽取结果;其中,待提取文本为非结构化文本。本发明实施例提供的概念抽取方法、装置、电子设备及存储介质,通过对待提取文本进行术语抽取和实体链接获取的各候选概念进行重排序,根据重排序的结果获取概念抽取结果,能在标注数据较少甚至没有标注数据的情况下,从非结构化文本中更高效、准确等抽取出概念。

    一种阅读理解数据集生成方法及组件

    公开(公告)号:CN116975222A

    公开(公告)日:2023-10-31

    申请号:CN202310723628.3

    申请日:2023-06-16

    申请人: 清华大学

    摘要: 本发明提供一种阅读理解数据集生成方法及组件,该方法包括:构建阅读理解的知识文档;知识文档包括阅读材料文本、背景知识库和阅读材料文本与背景知识库的实体对齐关系;根据知识文档进行推理链抽取,得到推理链和问题三元组;根据推理链和问题三元组进行数据生成,得到自然语言问题和自然语言问题对应的答案,从而得到高质量的数据库,语言智能系统根据数据库进行深度语义理解推理出问题的答案的效率和精准性更高。