ICS35.240.30 A14 GB 中华人民共和国国家标准 GB/T33994-2017/ISO28500:2009 信息和文献WARC文件格式 Information and documentation-WARC file format (ISO28500:2009 IDT) 2017-07-12发布 2018-02-01实施 中华人民共和国国家质量监督检验检疫总局 发布 中国国家标准化管理委员会 GB/T33994-2017/ISO28500:2009 前言 本标准按照GB/T1.1一2009给出的规则起草. 本标准使用翻译法等同采用ISO28500:2009《信息和文献WARC文件格式》. 与本标准中规范性引用的国际文件有一致性对应关系的我国文件如下: —GB/T7408一2005数据元和交换格式信息交换日期和时间表示法(ISO8601:2000 IDT). 本标准做了下列编辑性修改: —增加了缩略语:LWS、MIME、US-ASCII(见3.2); 一为了增强易读性,在保留国际标准中示例的基础上,将部分示例替换为国内示例(见附录B). 本标准由全国信息与文献标准化技术委员会(SAC/TC4)提出并归口. 本标准起草单位:国家图书馆、中国科学院文献情报中心、中国国防科技信息中心、中国科技信息研 究所、北京万方数据股份有限公司. 本标准主要起草人:毛雅君、李春明、吴振新、真溱、曲云鹏、张晓丹、张兰、杨贺、敦文杰、张彪. I GB/T33994-2017/ISO28500:2009 引 言 每天,网站和网页从互联网上产生或消失.十多年来,记忆存储组织尝试用网络规模工具(如网络 爬虫)寻找最适宜采集并跟踪记录海量的重要信息的方法.与此同时,记忆存储组织对保存非网络抓取 的数字化资源的需求也与日俱增(如,整套电子期刊或环境感应设备生成的数据).出现了一种需求,即 希望能有一种文件格式,通过一个文件简单并安全地承载大量组成文件的数据对象,以便进行存储、管 理和交换. WARC(Web ARChive 网络存档)文件格式提供了一个由多个资源记录(数据对象)连接成一个长 文件的协议,其中每个资源记录由一组简单文本标头和任意数据内容块构成.WARC格式是ARC文 件格式的扩展.WARC格式将作为组织、管理和储存采集来自网络和其他数以亿计的数字资源的一种 标准,可用于构建收割(如Heritrix网络爬虫,一种开源软件)、管理、访问和交换内容等各种应用. 除了用ARC记录的原始内容外,扩展的WARC格式还容纳相关的二次级内容,如分配的元数据、 缩减的重复检测活动、后期转换及大型资源的切分等. Ⅱ ...