ICS 33. 020 CCS M10 YD 中华人民共和国通信行业标准 YD/TXXXXX-XXXX 面向机器学习的电信数据规范数据质量 Telemunication data specification in the perspective of machine learning data quality 报批稿 行业标准信息服务平台 XXXX-XX-XX发布 XXXX-XX-XX实施 中华人民共和国工业和信息化部 发布
YD/TXXXXXXXX 目次 前言.
1范围. 2规范性引用文件, 3术语和定义, 4电信数据质量管理总则 4.1 概述. 4.2数据质量评估原则 4.3数据质量评估维度 4.4电信数据质量管理一般流程 4.5机器学习应用下电信数据质量评估方法 5机器学习应用下电信数据质量评估指标 6 5.1规范性、 5.2完整性 5.3准确性 8 5.4有效性 5.5一致性 10 5.6适量性, 5.7时效性 .11 5.8可靠性, .12 6指标筛选 13 参考文献. 行业标准信息服务平台 .15
YD/TXXXXXXXX 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起 草.
本文件是面向机器学习的电信数据系列标准之一,该系列标准结构和名称如下: 一面向机器学习的电信数据规范数据服务接口 一面向机器学习的电信数据规范数据模型 一一面向机器学习的电信数据规范数据质量 面向机器学习的电信数据规范数据安全能力成熟度 一面向机器学习的电信数据规范数据安全能力成熟度评估方法 请注意本文件的某些内容可能涉及专利.
本文件的发布机构不承担识别这些专利的责任.
本文件由中国通信标准化协会提出并归口.
本文件起草单位中国信息通信研究院、中国移动通信集团有限公司、中国联合网络通信集团有限 公司、中国电信集团有限公司、华为技术有限公司、中兴通讯股份有限公司.
本文件主要起草人:程强、刘姿杉、胡雅坤、袁丽雅、李唯源、孟瑜.
行业标准信息服务平台 I1
YD/T XXXX-XXXX 面向机器学习的电信数据规范数据质量 1范围 本文件规定了对电信数据进行质量管理的通用原则、一般流程和评估方法,并对电信数据集在规范 性、完整性、准确性、有用性、一致性、适量性、时效性、可解释性和可靠性等维度相关的指标进行了 定义和示例说明.
本文件所定义的电信数据类型主要为结构化数据,不涉及自然语言、图像等非结构化 与其他复杂类型数据.
本文件适用于电信网络运营商、设备商、服务商、软件开发者、最终用户、第三方监管机构、认证 机构或评测单位等来开展面向机器学习应用过程中电信数据的特性和质量评估相关工作,来保证电信数 据集在机器学习应用中的可用性,促进电信领域机器学习应用的开展.
2规范性引用文件 下列文件对于本文件的应用是必不可少的.
凡是注日期的引用文件,仅注日期的版本适用于本文件.
凡是不注日期的引用文件,其最新版本(包括的修改单)适用于本文件.
GB/T5271.1-2000信息技术词汇第1部分:基本术语 GB/T5271.17-2010信息技术词汇第17部分:数据库 GB/T35295-2017信息技术大数据术语 3术语和定义 下列术语和定义适用于本文件.
3. 1 数据data 信息的可再解释的形式化表示,以适用于通信、解释或处理.
[来源:GB/T 5271.1-2000 01.01.02] 3. 2 数据集data set 具有一定主题,可以标识并可以用于机器学习训练、验证及测试等处理过程的数据形式.
3. 3 元数据metadata 关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和 数据易变性的数据.
[来源:GB/T 5271.17-2010 定义17.06.05]
YD/TXXXX-XXXX 3. 4 结构化数据structureddata 一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用 关系模型予以有效描述.
[来源:GB/T35295-2017,定义2.2.13] 3.5 数据集质量datasetquality 在指定条件下使用时,数据集的特性满足机器学习算法所需明确和隐含要求的程度.
3. 6 数据质量管理data qualitymanagement 对数据从采集、传输、预处理、存储、处理、应用和销毁生命周期的每个阶段中可能引发的各类数 据质量问题,进行度量、监控、质量问题解决等一系列管理活动.
3. 7 数据质量维度datasetqualitydimension 数据满足机器学习应用要求和使用目的的基本质量特性,是一个数据约束的类型,例如完整性、一 致性等.
3.8 数据质量值类型dataqualityvaluetype 对数据质量进行评估的值的类型,例如布尔型变量、百分比、比率等.
3. 9 数据标准datastandard 数据的命名、定义、结构和取值规范方面的规则和基准.
3. 10 电信数据模型telemunication datamodel 面向机器学习应用,对电信数据特征进行抽象和主题分类,并对数据主题、主要电信主体等相互之 间的关系进行描述.
3. 11 数据结构特征structuralfeature of data 数据本身的构成遵循一定的准则(例如IP地址有A/B/C/D和特殊分类).
3.12