ICS 35.030 CCS L 67 YD 中华人民共和国通信行业标准 YD/TXXXX-XXXX 电信网和互联网数据溯源技术规范 Technical specificationfor data provenanceof telemunication and Internet (报批稿) 行业标准信息服务平台 XXXX-XX-Xx XXXX-XX-Xx 中华人民共和国工业和信息化部 发布
目次 前 1范围 2规范性引用文件 3术语和定义 4缩略语. 5概述... 5.1数据溯源类型. 5.2数据衍生关系溯源 5.3数据流转路径溯源. 6数据衍生关系溯源. 6.1溯源对象.... 6.2溯源流程.. 6.3溯源信息记录要求.
6.4溯源信息管理要求. 6.5回溯要求. 7数据流转路径溯源.. 7.1溯源对象. 7.2溯源过程. 7.3溯源信息记录要求. 7.4溯源信息管理要求. 7.5回溯要求... 8数据溯源测试方法.... 8.1数据衍生关系溯源功能测试 8.2数据流转路径溯源功能测试. 附录A(资料性)典型场景下的数据溯源 行业标准信息服务平台
前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规 则》的规定起草.
请注意本文件的某些内容可能涉及专利.
本文件的发布机构不承担识别专利的责任.
本文件由中国通信标准化协会提出并归口.
本文件起草单位:中国移动通信集团有限公司、深信服科技股份有限公司、成都思维世 纪科技有限责任公司、中国联合网络通信集团有限公司、中国电信集团有限公司、北京东方 通网信科技有限公司、中兴通讯股份有限公司、北京神州泰岳信息安全技术有限公司、河南 信大网御科技有限公司、杭州安恒信息技术股份有限公司、天翼电子商务有限公司、北京神 州绿盟科技有限公司.
本文件主要起草人:杨亭亭、耿慧拯、粟栗、刘颖卿、何申、宋博韬、刘阳、曾礼、游 世林、张恒、刘飞、崔婷婷、贾小陶、王晓丹、许琛超、田丽丹、顾希、刘建华.
行业标准信息服务平台
电信网和互联网数据溯源技术规范 1范围 本文件规定了电信网和互联网数据溯源的技术要求与测试方法.
本文件适用于指导电信网和互联网开展数据溯源能力建设及管理,也适用于监管部门、 第三方机构等组织对数据溯源能力进行监督和评估.
2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款.
其中,注日期 的引用文件,仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括 的修改单)适用于本文件.
GB/T34945-2017信息技术数据溯源描述模型 3术语和定义 GB/T34945-2017界定的以及下列术语和定义适用于本文件.
3.1 数据溯源data provenance 根据数据在整个生存周期内(从产生、传播到消亡)的演变信息和演变处理内容的记录, 推演数据演变情况的过程.
[来源:GB/T34945-2017,定义2.1,有修改] 3.2 溯源信息provenance information 推演数据演变情况所依据的演变信息和演变处理内容的记录.
示准信 4缩略语 下列缩略语适用于本文件.
IP 网络互联协议 intermet Protocol ETL 抽取、转换、加载 Exiract-Transform-Load SQL 结构化查询语言 Structurecd Qucry Language 5概述 5.1数据溯源类型 按照回溯目标不同,数据溯源通常分为数据衍生关系溯源和数据流转路径溯源.
5.2数据衍生关系溯源
数据衍生关系溯源是根据数据在整个生存周期内(从产生、传播到消亡)的演变信息和 演变处理内容的记录,推演数据衍生关系的过程.
产生数据衍生关系的操作包括数据表的建 立、修改等,涉及到数据的收集、存储、使用、加工、提供、删除等活动.
推演数据衍生关系一般可通过分析日志记录等方式开展.
5.3数据流转路径溯源 数据流转路径溯源是根据数据在不同系统间,或在同一系统的不同节点之间流转过程的 记录,推演数据演变情况的过程.
产生数据流转路径的操作包括系统节点间的数据访间、系 统间的数据访问等.
推演数据流转路径一般可通过分析日志记录的方式开展,适用于组织机构内部,当数据 离开组织机构内部进行流转时,外部日志记录难以获取,则需要通过数据水印、文档指纹等 技术完成数据路径溯源.
不同场景下的数据溯源技术实现方式见附录A.
6数据衍生关系溯源 6.1溯源对象 数据衍生关系溯源的溯源对象可以为表名、字段名等元数据,不包含数据内容.
6.2溯源流程 数据衍生关系溯源在开展数据收集、数据存储、数据使用、数据加工、数据传输、数据 提供、数据公开等数据处理活动的同时,同步记录并更新溯源信息.
针对待溯源的数据,按 需获取、分析相应的溯源信息,推演数据衍生关系并进行展示,具体过程示例见图1.
数据处理活动 数据生关系洲源 数据收集 记录/更新测源信息 持洲源的数据 数据有储 记录/更新测源信息 数据使用 记录/更新测源信息 数据加工 记录/更新测源信息 分析图源信息 数据传验 记录/更新测源信息 数据提供 记录/更新测源信息 数据公开 记求/更新溯源信息 数据衍生关系 图1数据衍生关系测源流程 6.3溯源信息记录要求 溯源信息由“数据-活动-执行实体”三个基本构件组成,数据包括“数据集"和“参数”子类: 活动指生成数据、使用数据或触发其他活动的动作:执行实体包括“人类执行实体"和“非人 类执行实体",各构件及子类之间关系参考GB/T34945-2017第三章的相关描述.
记录溯源信息过程中每个构件内容应包括: a)数据构件应包括但不限于:数据库名称、数据表名称、数据字段名、字段类型,存 储位置,数据表的创建时间、创建账号、创建时使用的参考数据表、来源数据表: b)活动构件应包括但不限于:对数据集的操作名称(如创建、复制、修改、删除)、