DA 中华人民共和国档案行业标准 DA/T77—2019 纸质档案数字复制件光学字符 识别(OCR)工作规范 Specification for optical character recognition (OCR)of digital copies of paper-based records XX-xX-X发布 ×XX-X-X实施 国家档案局发布 DA/T77-2019 前言 本标准按照GB/T1.1一2009给出的规则起草. 本标准由国家档案局提出并归口. 本标准起草单位:国家档案局馆室司、青岛市档案馆. 本标准主要起草人:刘芸、丁德胜、杨来青、邹杰. 2 DA/T77-2019 纸质档案数字复制件光学字符 识别(OCR)工作规范 1范围 本标准规定了纸质档案数字复制件光学字符识别(OCR)工作的组织、实施和管理. 本标准适用于字迹清晰、文本规范的纸质档案数字复制件的光学字符识别(OCR)工作. 2规范性引用文件 下列文件对于本文件的应用是必不可少的.凡是注日期的引用文件,仅注日期的版本适用于本文 件.凡是不注日期的引用文件,其最新版本(包括的修改单)适用于本文件. DA/T13一1994档号编制规则 DA/T22一2015归档文件整理规则 DA/T31一2017纸质档案数字化规范 3术语和定义 下列术语和定义适用于本文件. 3.1 字符character 供组织、控制或表示数据用的元素集合中的一个元素. [GB18030一2005,定义4.1] 3.2 字符集character set 多个字符的集合. 注:常见字符集有ASCI字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等. 3.3 光学字符识别optical character recognition;OCR 通过信息技术对图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程. 3.4 纸质档案数字复制件digital copy of paper-based record 纸质档案经过数字化加工过程后形成的,存储在磁带、磁盘、光盘等载体上并能被计算机等电子设 备识别的数字图像. 3.5 档案OCR成果OCR oute of record 记录通过OCR技术获取的纸质档案数字复制件文字内容的文件. ...