ICS07.080 A40 GB 中华人民共和国国家标准 GB/T35890-2018 高通量测序数据序列格式规范 Technical specification of high throughput sequencing data format 2018-02-06发布 2018-09-01实施 中华人民共和国国家质量监督检验检疫总局 发布 中国国家标准化管理委员会 GB/T35890-2018 高通量测序数据序列格式规范 1范围 本标准规定了高通量测序数据的序列格式,包括序列描述格式规范和高通量测序数据整体格式 规范. 本标准适用于规范生物体DNA高通量测序数据序列格式. 2规范性引用文件 下列文件对于本文件的应用是必不可少的.凡是注日期的引用文件,仅注日期的版本适用于本文 件.凡是不注日期的引用文件,其最新版本(包括的修改单)适用于本文件. GB/T30989高通量基因测序技术规程 ISO/IEC646信息技术ISO信息交换七位编码字集(Information technology一ISO7-bit coded character set for information interchange) 3术语和定义 下列术语和定义适用于本文件. 3.1 高通量测序high-throughput sequencing 以一次并行几十万到几百万条核酸分子序列测定和一般读长较短等为标志,适用于DA的测序 技术. 注:改写GB/T30989一2014,定义3.1.9. 3.2 测序片段reads 高通量测序平台产生的含有碱基序列和质量值的序列片段. 3.3 双末端测序paired-end sequencing 对DNA模板链和互补链分别测序,并得到两条链成对测序片段的测序技术. 3.4 插入片段长度insert size 双末端测序中,从模板链测序的测序片段左端到互补链测序的测序片段右端的距离. 3.5 测序片段识别码reads identifier 用以识别一段测序片段的具有唯一性的字符串. 3.6 碱基序列base sequence 测序片段中记录碱基排列的字符串,碱基序列中的每个碱基应使用大写字母(A、T、C、G和N)或 小写字母(a、t、c、g和n) 其中字母A和a表示腺嘌呤,字母T和t表示胸腺嘧啶,字母C和c表示胞嘧 1 GB/T35890-2018 啶,字母G和g表示鸟嘌呤.字母N和n表示未测定的碱基. 3.7 美国标准信息交换代码American standard code for information interchange;ASCII 基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,并等同于国际标准 ISO/IEC646. 3.8 质量值体系quality score system 测序碱基质量一个特定的范围,常见的质量值体系有Phred33和Phred十64两种,Phred33体 系质量值0对应ASCII码33,用!表示,Phred64体系质量值0对应ASCII码64,用@表示. 3.9 FASTQ格式FASTQ format FASTQ是基于文本的、保存生物序列(通常是核酸序列)和其测序质量信息的、每四行表示一条序 列的标准格式. 3.10 SAM/BAM格式SAM/BAM format SAM是基于文本的、存储核酸序列和其测序质量信息的、以每一行表示一条序列、每行以制表符分 割成11列的标准格式,测序质量信息使用ASCII字符表示,BAM是SAM格式的二进制格式. 注:SAM和BAM也可作为序列比对...