ICS35.240.30 CCS L70 T/CCUA 中国计算机用户协会团体标准 T/CCUA043-2024 文献资源知识图谱构建技术要求 Constructing knowledge graph of literature resources -Technical requirement 2024-12-16发布 2025-1-16实施 中国计算机用户协会 发布
T/CCUA 043-2024 目次 前 言 引 言 III 1范围 2规范性引用文件 3术语和定义 4缩略语. 5架构与流程. 5.1构建文献资源知识图谱技术架构 5.2文献资源知识图谱构建流程, 5.2.1数据接入.. 5.2.2数据清洗 5.2.3数据整合处理 5.2.4知识模型构建 5.2.5知识要素抽取 5.2.6知识融合. 5.2.7知识计算推理 5 5.2.8知识可视化 6技术要求. 5 6.1数据接入与清洗 5 6.2数据整合处理. 6.3知识模型构建 5 6.4知识抽取, 6 6.5知识融合 6 6.6知识计算推理, 6.7知识可视化. 6.8质量评估和维护 6.9知识抽取模型训练. 6.10大语言模型赋能知识图谱 参考文献..
T/CCUA 043-2024 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草.
本文件由中国计算机用户协会提出.
本文件由中国计算机用户协会归口.
本文件起草单位:中国国家版本馆、中国计算机用户协会创新技术应用分会、中南出版传媒集团股 份有限公司、《全国新书目》杂志有限责任公司、天闻数媒科技(湖南)有限公司、湖南大学、中电长 城科技有限公司、星环信息科技(上海)股份有限公司、湖南超绘智能科技有限公司.
本文件主要起草人:刘成勇、王志庚、杨俊杰、张琦、唐卓、胡昌华、林峰、刘剑、刘轶铭、 耿锐、马驰、马腾飞、田维、李谟毫、张嘉鹏、邹璞、肖丽晶、刘杨兵、邓被、刘斌、符利华、 李苏、郭峰.
II
T/CCUA043--2024 引言 随着信息技术的快速发展和互联网的普及应用,知识图谱作为一种结构化知识表示和组织方法,在 各个领域的知识管理和智能应用中发挥着越来越重要的作用.
知识图谱是实现文献资源智能应用的重 要基础,同时利用大语言模型在语义理解、内容生成等方面的技术优势,实现大语言模型对知识图谱构 建至知识图谱应用各环节的增强,提升知识图谱构建效率和质量.
在实际应用中,为了保证知识图谱的 质量和可用性,需要制定一套文献资源知识图谱构建的标准流程.
III
T/CCUA 043-2024 文献资源知识图谱构建技术要求 1范围 本文件确立了文献资源知识图谱架构和构建流程,规定了相关技术要求.
本文件适用于相关组织文献资源知识图谱的开发和维护.
2规范性引用文件 本文件没有规范性引用文件.
3术语和定义 下列术语和定义适用于本文件.
3. 1 大语言模型largelanguage model 经过预训练和微调的大规模人工智能模型,可以理解指令并基于大量数据生成人类语言.
[来源:WDTA AISTR02 3.2] 3.2 文献资源知识图谱knowledgegraphofliteratureresources 以一种结构化的形式描述文献资源领域中概念、实体及其关系的方式.
注:文献资源知识图谱将文献资源的海量信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和 理解文献资源海量信息的能力.
3.3 本体ontology 表示实体类型以及实体类型之间关系、实体类型属性类型及其之间关联的一种模型.
注:又称本体模型 [来源:GB/T 42131-2022 3.8] 3. 4 实体entity 独立存在的对象.
[来源:GB/T 42131-2022 3.2] 3.5 关系relation 实体、实体类型、实体组合或实体类型组合间的联系.
注:关系用于描述实体类型和实体类型、实体类型和实体、实体和实体之间的关联方式.
[来源:GB/T 421312022 3.11] 3.6 实体识别entity identification 一种信息提取技术.
从文本数据中获取人名、地名等实体数据.
[来源:《计算机科学技术名词(第三版)》,07.0419] 3.7 实体链接entitylinking 将文本中的实体链向其在给定知识库中目标实体的过程.
[来源:《知识图谱:方法、实践与应用》,4.5.1] 3.8 关系抽取relationextraction 识别文本中提到的实体之间关系的任务.
[来源:GB/T 41867-2022 3.3.4]