ICS35. 240 CCS L 67 T/AHAI 安徽省人工智能协会团体标准 T/AHA1013-2024 面向终身学习的知识图谱构建系统 技术规范 Technical specification forknowledge graph construction system of lifelong learning 2024-12-02发布 2024-12-02实施 安徽省人工智能协会 发布
T/AHA1013-2024 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草.
请注意本文件的某些内容可能涉及专利.
本文件的发布机构不承担识别专利的责任.
本文件由安徽省人工智能协会提出并归口.
本文件起草单位:西安电子科技大学、湖南大学、科大讯飞股份有限公司.
本文件主要起草人:李瑞,徐悦牲,段明星,李鑫,李婵,蒋志平,王琳方,杨思睿,邢钧峰,蒋 宇宏,杨溢,刘寄甲,刘大威,马寅汝.
T/AHA1 013-2024 面向终身学习的知识图谱构建系统技术规范 1范围 本文件规定了面向终身学习的知识图谱构建系统的框架、技术要求、功能要求和非功能要求.
本文件适用于教育行业面向终身学习的知识图谱系统设计、开发与测试.
2规范性引用文件 GB/T5271.17-2010信息技术词汇第17部分数据库: GB/T42131-2022人工智能知识图谱框架: YD/T4044-2022基于人工智能的知识图谱构建技术要求.
3术语和定义 GB/T5271.17-2010界定的以及以下术语和定义适用于本文件.
3. 1 终身学习 lifelonglearning 终身学习是一种持续不断的学习过程,在人的整个生命周期中不断获取新知识、技能和经验,使个 体能够持续提升能力、拓展视野,并保持竞争力.
3. 2 实体entity 存在或者可能存在的任何具体或抽象的事务,包括这些事物间的关联.
[来源:GB/T 5271.172010 17.02.05] 3. 3 实体类型entity type 一组具有相同属性的实体集合的抽象.
[来源:GB/T 421312022 3.3] 3. 4 关系relation 具有相同属性的各实体值的集合以及这些属性.
[来源:GB/T 5271.172010 17.04.01]
T/AHA1 013-2024 3. 5 知识图谱knowledge graph 一种以结构化的形式描述客观世界中概念、实体及其关系的方式.
它将互联网的海量信息表达成更 接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力.
[来源:YD/T 4044-2022,3.1] 3.6 精确率precision 评价机器学习模型效果的参数,反映的是在预测为正例的样本中,预测正确的比例.
注:计算公式为准确率=正确预测的正例样本数量/预测为正例的样本数量.
3. 7 召回率recallrate 评价机器学习模型效果的参数,反映的是在正例样本中,能够正确地识别为正例的比例.
注:计算公式为召回率=正确预测的正例样本数量/(正确预测的正例样本数量错误预测的负例样本数量).
3. 8 F1值 F1-score 综合应用精确率和召回率,为二者的调和均值.
注:计算公式为F1值=2*精确率*召回率/(精确率召回率).
4缩略语 下列缩略语适用于本文件.
NLP自然语言处理(Natural Language Processing) API应用编程接口(Application Programming Interface) RDF 资源描述语言(Resource Description Framework) OWL网络本体语言(WebOntology Language) SPARQL 数据获取协议和查询语言(SPARQL Protocol and RDF Query Language) 5构建框架 面向终身学习的知识图谱系统以底层技术基础作为支撑,其构建需经过数据获取、数据清洗和去重、 知识抽取、知识表示、实体链接、知识存储、知识更新等阶段,各阶段间的逻辑结构如图1所示.
T/AHA1 013-2024 ③知识更新 角色 实体验取 D维据获取 如识表示 实体链接 关系推取 枢关属性 标签 其他 ②数洲清洗与长重 图1面向终身学习的知识图谱构建系统结构图 标引序号说明: ① 数据获取.
通过数据库、网络爬虫、API接口、第三方数据提供商等手段获取所需的数据.
② 一-数据清洗与去重.
针对获取的数据集中的残缺数据、错误数据和重复数据进行清洗.
③一-知识抽取.
知识抽取是使用识别、理解、过滤和归纳的方法从不同来源的结构化、半结构 化和非结构化数据中将信息提取出来 ④一一知识表示.
将知识图谱中的实体和它们之间的关系转换为数学表示,从而使得计算机可以 效处理大规模的知识图谱.
一一实体链接.
实体链接是一种确定两个实体是否指向现实世界中同一对象的过程,用于判断 不同数据集中的实体是否相同.
一一知识存储.
知识存储是指将知识以某种结构化的形式存储在计算机系统或其他媒体中,以 便于组织、管理和检索,旨在有效地保存和利用知识资源.
-一知识更新.
知识更新是指不断对知识库、知识图谱或其他知识存储结构中的信息进行修订、 添加、删除或修改,以确保其中所包含的知识与最新的实际情况和领域知识相符.
6技术要求 6.1知识获取 终身学习过程中涉及到多种知识获取途径,知识获取阶段应明确知识图谱构建的数据来源,针对不 同来源的数据定制不同的获取规则.
知识获取阶段的技术要求如下: a)应明确数据获取的来源和途径.
应明确数据获取的目标来源,包括但不限于数据库、网络爬虫、 API接口、第三方数据提供商等.
对于每个来源,需要了解数据的结构、格式、访问方式等具 体信息: b)应明确数据粒度和维度.
应根据数据使用场景和需求,明确数据获取输出的粒度和维度,以满 足后续知识图谱构建的需求: