ICS35.240.01 L70 B 中华人民共和国国家标准 GB/T36338-2018 信息处理用藏文文献文本信息标记规范 Specification onTibetanliterature textmarkupforinformationprocessing 2018-06-07发布 2019-01-01实施 国家市场监督管理总局 发布 中国国家标准化管理委员会
GB/T36338-2018 目次 前言 1范围 2规范性引用文件 3术语和定义 4藏文文献的标记框架 5藏文文献文本基本属性的标记 6藏文文献文本结构信息的标记 7藏文文献文本标记规范 附录A(资料性附录)《更敦群培文集》的TEI标记范例 18
GB/T36338-2018 前言 本标准按照GB/T1.1-2009给出的规则起草。
请注意本文件的某些内容可能涉及专利。
本文件的发布机构不承担识别这些专利的责任。
本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本标准起草单位:中国电子技术标准化研究院、西北民族大学、西藏自治区藏语文工作委员会办公 室、西藏大学,青海师范大学、西藏自治区工业与信息化厅、中国标准化研究院、中国科学院软件研究所、 青海民族大学、中国藏学研究中心、民族出版社、北京北大方正电子有限公司、潍坊北大青鸟华光照排有 限公司。
本标准主要起草人:多拉、扎西加、熊涛、尼玛才让、杨本加、多杰卓玛、索南才让、冷本扎西、刘汇丹、 仁青卓么、项见措、格桑多吉、黄鹤鸣、才让加。
GB/T36338-2018 信息处理用藏文文献文本信息标记规范 1范围 本标准规定了藏文数字文献的文本信息标记。
本标准适用于藏文语料库建设及藏文各种文献的数字化标记。
2规范性引用文件 下列文件对于本文件的应用是必不可少的。
凡是注日期的引用文件,仅注日期的版本适用于本文 件。
凡是不注日期的引用文件,其最新版本(包括的修改单)适用于本文件。
GB/T14814-1993信息处理文本和办公系统标准通用置标语言(SGML) 3术语和定义 下列术语和定义适用于本文件。
3.1 藏文文献Tibetanliterature 由藏文(包括古藏文及梵文转写)构成的各种文献。
3.2 文本置标语言textencodinginitiative;TEI 一种定义电子文档结构和描述其内容的国际标准语言。
注1:目前在信息处理界电子图书馆相关计划中普遍使用的置标语言,适用于对电子形式的全文的编码和描述。
注2:TEI元数据标准同时也规定了可供数据交换的标准编码格式,采用SGML文件格式。
3.3 班智达Bantita 梵语,意为学识渊博的学者,专指参与经典翻译的印度等地学者。
注:班智达和译师分为藏文文献厘定前与厘定后两种。
4藏文文献的标记框架 TEI适用于对电子形式的全文的编码和描述。
TEI元数据标准同时也规定了可供数据交换的标准 编码格式,使用GB/T14814-1993规定的SGML作为其编码语言。
TEI格式具有很大限度的灵活 性、综合性、可扩展性,能支持对各种类型或特征的文档进行编码。
TEI元数据标记可以对语料库的文 本属性信息与文本结构信息进行规范的标记。
TEI文档,也是一个SGML文档,一般有四个部分:teiHeader(题名),front(文本前的信息),body (正文),back(文本后的信息)。
TeiHeader:对电子文本对象的描述。
front:对正文前的信息描述,包含 位于文件最前端的项目(标头、题名页、前言、献词等。
)。
body:对正文信息的描述,单篇文章的整体部 分,不包含正文前及正文后信息。
back:对正文后的信息描述,包含附录等。
TEI标头的第一层可以包含(fileDesc)文档描述、(encodingDesc)编码描述、(profileDesc)文件背
GB/T36338-2018 景描述、(revisionDesc)修订描述四个区段,其中只有第一个[(fileDesc)(文档描述)是必要元素。
(fileDesc)可以包含七个子元素:(titleStmt)(题名描述)、(editionStmt)(版本描述)、(extent)(档案 大小)、(publicationStmt)(出版描述)、(seriesStmt)(从编描述)、《notesStmt)(附注描述)及 (sourceDesc)(来源描述)。
其中,只有(titleStmt)(题名描述)、(publicationStmt)(出版描述)及 (sourceDesc)(来源描述)是必要元素。
因此最小的TEI标头只包含(fileDesc)。
在这个(fileDesc)中, ...