GB/T 33994-2017 信息和文献 WARC文件格式.pdf

中华人民共和国,文本文件格式,其他规范
文档页数:30
文档大小:10.46MB
文档格式:pdf
文档分类:其他规范
上传会员:
上传日期:
最后更新:

ICS35.240.30 A14 GB 中华人民共和国国家标准 GB/T33994-2017/ISO28500:2009 信息和文献WARC文件格式 Information and documentation-WARC file format (ISO28500:2009 IDT) 2017-07-12发布 2018-02-01实施 中华人民共和国国家质量监督检验检疫总局 发布 中国国家标准化管理委员会 GB/T33994-2017/ISO28500:2009 前言 本标准按照GB/T1.1一2009给出的规则起草. 本标准使用翻译法等同采用ISO28500:2009《信息和文献WARC文件格式》. 与本标准中规范性引用的国际文件有一致性对应关系的我国文件如下: —GB/T7408一2005数据元和交换格式信息交换日期和时间表示法(ISO8601:2000 IDT). 本标准做了下列编辑性修改: —增加了缩略语:LWS、MIME、US-ASCII(见3.2); 一为了增强易读性,在保留国际标准中示例的基础上,将部分示例替换为国内示例(见附录B). 本标准由全国信息与文献标准化技术委员会(SAC/TC4)提出并归口. 本标准起草单位:国家图书馆、中国科学院文献情报中心、中国国防科技信息中心、中国科技信息研 究所、北京万方数据股份有限公司. 本标准主要起草人:毛雅君、李春明、吴振新、真溱、曲云鹏、张晓丹、张兰、杨贺、敦文杰、张彪. I GB/T33994-2017/ISO28500:2009 引 言 每天,网站和网页从互联网上产生或消失.十多年来,记忆存储组织尝试用网络规模工具(如网络 爬虫)寻找最适宜采集并跟踪记录海量的重要信息的方法.与此同时,记忆存储组织对保存非网络抓取 的数字化资源的需求也与日俱增(如,整套电子期刊或环境感应设备生成的数据).出现了一种需求,即 希望能有一种文件格式,通过一个文件简单并安全地承载大量组成文件的数据对象,以便进行存储、管 理和交换. WARC(Web ARChive 网络存档)文件格式提供了一个由多个资源记录(数据对象)连接成一个长 文件的协议,其中每个资源记录由一组简单文本标头和任意数据内容块构成.WARC格式是ARC文 件格式的扩展.WARC格式将作为组织、管理和储存采集来自网络和其他数以亿计的数字资源的一种 标准,可用于构建收割(如Heritrix网络爬虫,一种开源软件)、管理、访问和交换内容等各种应用. 除了用ARC记录的原始内容外,扩展的WARC格式还容纳相关的二次级内容,如分配的元数据、 缩减的重复检测活动、后期转换及大型资源的切分等. Ⅱ ...

资源链接请先登录(扫码可直接登录、免注册)
十年老网站,真实资源!
高速直链,非网盘分享!浏览器直接下载、拒绝套路!
本站已在工信部及公安备案,真实可信!
手机扫码一键登录、无需填写资料及验证,支持QQ/微信/微博(建议QQ,支持手机快捷登录)
①升级会员方法:一键登录后->用户中心(右上角)->升级会员菜单
②注册登录、单独下载/升级会员、下载失败处理等任何问题,请加客服微信
不会操作?点此查看“会员注册登录方法”

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)