T/CAPT 014-2024 新闻行业大规模预训练模型语言模型安全性要求.pdf

文档页数：21

文档大小：490.69KB

文档格式：pdf

文档分类：团体标准

上传会员：匿名用户

上传日期：2025-04-17

最后更新：2025-04-17

ICS35.240 CCS L70 T/CAPT 团体标准 T/CAPT014-2024 新闻行业大规模预训练模型语言模型安全性要求 News Industry-Large-scale of pre-trained modelsRequirements for language model security 2024-12-18发布 2024-12-18实施中国新闻技术工作者联合会发布
T/CAPT014-2024 目次前言，引言.. 1范围. 2规范性引用文件 3术语和定义， 4基本要求. 4.1概述 4.2内容安全 4.3数据安全， 4.4合规安全.

4.5技术安全， 5内容安全要求， 5.1要求对象 5.2要求维度， 5.3措施要求， 6数据安全要求， 6.1要求对象. 6.2要求维度， 6.3措施要求. 7合规安全要求 7.1概述 7.2整体控制 7.3要求维度， 7.4措施要求. 10 8技术安全要求 12 8.1要求对象. 12 8.2要求维度. 12 8.3措施要求 12 附录A（资料性）新闻行业大规模预训练模型涉及的主要合规风险 14 附录B（资料性）内容安全评估能力等级建议 16 参考文献， 17
T/CAPT 014-2024 前言本文件按照GB/T1.1-2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草.

请注意本文件的某些内容可能涉及专利.

本文件的发布机构不承担识别专利的责任.

本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提出.

本文件由中国新闻技术工作者联合会归口.

本文件起草单位：深圳市创意智慧港科技有限责任公司（深圳报业集团技术公司）、新华通讯社通信技术局、四川封面传媒科技有限责任公司、北京智途云天科技有限公司、视觉（中国）文化发展股份有限公司、北京联合信任技术服务有限公司、上海算法创新研究院、中联超清（北京）科技有限公司、华为云计算技术有限公司、北京融闻传媒科技研究院有限公司、福建理工大学、新华社媒体融合生产技术与系统国家重点实验室、中国传媒大学.

本文件主要起草人：路海燕、瞿曦、郑创伟、姜军、高登科、王骏清、丁峰、席晨阳、唐波、李志宇、张昌利、刁春飞、岳韶华、王付生、郑子木、邢谷涛、罗毅、林波、成鹏、肖国煜、王仲豪、刘琼、张鹏洲、曹娟、王宇琦、邓海滢、段艳文、王志民、付蓉、黄菁.

II
T/CAPT 014-2024 引言《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型安全性要求和研发数据要求、多模态要求5部分组成.

分别从实用性、评测、安全性、研发数据和多模态等多个角度出发，构建了一个完整的标准体系，确保大规模预训练模型在新闻行业中的有效、安全和规范使用.

旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导.

《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时的使用场景要求、效果要求以及产品化要求.

该标准为模型的实际应用提供了具体指导，确保模型在真实新闻生产过程中具备足够的实用性和效果.

《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方法和指标.

该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求，并给出了具体的评测示例，以确保评测过程的科学性和规范性.

《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等环节中所涉及的安全性要求.

该标准旨在保障预训练模型在新闻领域的应用中，能够遵守相关法律法规，确保数据安全、内容合规.

《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的数据，提出了技术要求.

该标准确保了在预训练模型研发过程中，数据的质量和规范性，从而提升模型的性能和可靠性.

《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等方面的要求，特别是在处理多模态数据时的技术标准.

该标准的制定，进一步拓展了预训练模型的应用范围，使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用.

5个标准的紧密衔接和相互配合，为新闻行业的大规模预训练模型构建了一个全面面系统的框架，为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障.

II1
T/CAPT 014-2024 新闻行业大规模预训练模型语言模型安全性要求 1范围本文件规定了新闻行业大规模预训练模型语言模型安全性的基本要求、内容安全要求、数据安全要求、合规安全要求和技术安全要求.

本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构在新闻领域大规模预训练模型语言模型运用中与安全有关的研发、部署、应用、管理等.

2规范性引用文件下列文件中的内容通过文中的规范性引用面构成本文件必不可少的条款.

其中，注日期的引用文件，仅该日期对应的版本适用于本文件：不注日期的引用文件，其最新版本（包括的修改单）适用于本文件.

GB/T22239信息安全技术网络安全等级保护基本要求 GB/T41867信息技术人工智能术语 TC260-003生成式人工智能服务安全基本要求 3术语和定义 GB/T41867界定的以及下列术语和定义适用于本文件.

3. 1 大规模预训练模型large-scalepre-trainedmodel 一种具有大规模参数和复杂计算结构的超大型机器学习模型（一般超过10亿个参数），通常由深度神经网络构建，对海量数据进行预训练处理.

3. 2 大规模预训练语言模型Large-scalepre-trainedlanguage models 一种通过在海量文本数据上进行预训练而构建的自然语言处理模型，通常基于深度学习框架，通过自监督学习从无标注的数据中学习语法、语言和知识等，可通过零样本（zero-shot）方式进行交互、并可以通过微调（finetune）进行特定任务加强.

3.3 数据data 任何以电子或者其他方式对信息的记录，可以是文本、图片、音频、视频等各种形式的电子信息.

3. 4 数据安全datasecurity 通过采取必要措施，确保数据处于有效保护和合法利用的状态，以及具备保障持续安全状态的能力.

3. 5 数据访问控制data access control；访问控制的一种安全机制，用于限制对敏感数据的访问，确保只有授权用户才能访问特定的数据资源.

3.6

资源链接请先登录（扫码可直接登录、免注册）

①本文档内容版权归属内容提供方。如果您对本资料有版权申诉，请及时联系我方进行处理（联系方式详见页脚）。
②由于网络或浏览器兼容性等问题导致下载失败，请加客服微信处理（详见下载弹窗提示），感谢理解。
③本资料由其他用户上传，本站不保证质量、数量等令人满意，若存在资料虚假不完整，请及时联系客服投诉处理。

投稿会员：匿名用户