T/CAPT 013-2024 新闻行业 大规模预训练模型 多模态要求.pdf

013,2024,CAPT,pdf,模态,团体标准
文档页数:40
文档大小:644.95KB
文档格式:pdf
文档分类:团体标准
上传会员:
上传日期:
最后更新:

ICS35.240 CCS L 70 T/CAPT 团 体 标 准 T/CAPT013-2024 新闻行业 大规模预训练模型 多模态要 求 News IndustryLarge-scale pre-trained modelsRequirments for multi-modal 2024-12-18发布 2024-12-18实施 中国新闻技术工作者联合会 发布
T/CAPT 013-2024 目次 前言, 引言.. III 1范围. 2规范性引用文件 3术语和定义 4多模态新闻任务要求.

4.1概述 4.2多模态新间报道, 4.3多模态新闻理解 4.4多模态新闻检索, 6 4.5多模态新闻编辑.

5多模态研发数据要求, N 5.1概述 5.2预训练数据 5.3微调数据. 6 6多模态大模型任务评测要求. 11 6.1评测执行方法 11 6.2评测指标, 12 6.3评测框架, 14 7多模态新闻任务安全性要求. 18 7.1数据保护, 19 7.2内容审核.

19 7.3身份验证, 19 7.4透明度和可解释性 19 7.5资质与合规性, 19 7.6应急响应, 19 附录A(资料性)多模态任务评测示例 20 A.1多模态新闻报道类, 20 A.2多模态新闻理解类. 21 A.3多模态新闻检索类. 24 A.4多模态新闻编辑类. 27 附录B(资料性) 多模态大模型技术参考资料 31 B.1模型架构, 31 B.2训练算法. 33 B.3硬件要求. 37 参考文献, 39
T/CAPT 013-2024 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草.

请注意本文件的某些内容可能涉及专利.

本文件的发布机构不承担识别专利的责任.

本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提 出.

本文件由中国新闻技术工作者联合会归口.

本文件起草单位:中国传媒大学、新华通讯社通信技术局、视觉(中国)文化发展股份有限公司、 大众报业集团(大众日报社)、武汉镝次元数据科技有限公司、传播大脑科技(浙江)股份有限公司、 广东南方新媒体股份有限公司、中国搜索信息科技股份有限公司、新华社媒体融合生产技术与系统国家 重点实验室(新华融合媒体科技发展(北京)有限公司)、新华通讯社北美总分社、深圳市创意智慧港 科技有限责任公司(深圳报业集团技术公司)、中联超清(北京)科技有限公司、福建理工大学.

本文件主要起草人:路海燕、曹娟、刘琼、张鹏洲、王骏清、汤代禄、魏漫江、刘丽芳、张健、王 兵、龙飞、蔡金慧、席懿婷、张震、李姝蒙、王琼、陈志业、郭永康、王永兴、罗毅、林波、成鹏、王 仲豪、熊立波、王慕维、王宇琦、瞿曦、邓海滢、郑创伟、王付生、王熠、瞿式微、王志民、杨士龙、 黄菁、张建伟、付蓉.

I1
T/CAPT 013-2024 引言 《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型 安全性要求和研发数据要求、多模态要求5部分组成.

分别从实用性、评测、安全性、研发数据和多模 态等多个角度出发,构建了一个完整的标准体系,确保大规模预训练模型在新闻行业中的有效、安全和 规范使用.

旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导.

《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时 的使用场景要求、效果要求以及产品化要求.

该标准为模型的实际应用提供了具体指导,确保模型在真 实新闻生产过程中具备足够的实用性和效果.

《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方 法和指标.

该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求,并给出了具体的评测示 例,以确保评测过程的科学性和规范性.

《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等 环节中所涉及的安全性要求.

该标准旨在保障预训练模型在新闻领域的应用中,能够遵守相关法律法规, 确保数据安全、内容合规.

《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的数 据,提出了技术要求.

该标准确保了在预训练模型研发过程中,数据的质量和规范性,从而提升模型的 性能和可靠性.

《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等 方面的要求,特别是在处理多模态数据时的技术标准.

该标准的制定,进一步拓展了预训练模型的应用 范围,使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用.

5个标准的紧密衔接和相互配合,为新闻行业的大规模预训练模型构建了一个全面面系统的框架, 为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障.

II1
T/CAPT 013-2024 新闻行业大规模预训练模型多模态要求 1范围 本文件规定了新闻行业大规模预训练模型多模态的新闻任务、研发数据、任务评测以及安全性等要 求.

本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构在新闻领域进 行多模态大规模预训练模型研发、部署、应用、评测和安全管理.

2规范性引用文件 下列文件中的内容通过文中的规范性引用面构成本文件必不可少的条款.

其中,注日期的引用文件, 仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括的修改单)适用于本 文件.

GB/T22240信息安全技术网络安全等级保护定级指南 GB/T35273信息安全技术个人信息安全规范 GB/T37988信息安全技术数据安全能力成熟度模型 TC260-003生成式人工智能服务安全基本要求 3术语和定义 GB/T41867界定的以及下列术语和定义适用于本文件.

3. 1 大规模预训练模型large-scalepre-trainedmodels 一种具有大规模参数和复杂计算结构的超大型机器学习模型(一般超过10亿个参数),通常由深 度神经网络构建,对海量数据进行预训练处理.

3.2 预训练pre-training 在大量通用数据上进行模型训练的过程.

3. 3 微调fine-tuning 为提升人工智能模型的预测精确度,一种先以大型广泛领域数据集训练,再以小型专门领域数据集 继续训练的附加训练技术.

注:常用于解决过拟合间题.

[来源:GB/T 41867-2022 3.2.31] 3. 4 微调数据fine tuningdata 针对新闻理解、生成、编辑等具体任务,用于模型微调的标注数据.

3.5 多模态大模型multimodallarge models 利用大规模多模态数据(包括文本、图像、音视频等)进行预训练,并通过微调适应新闻领域特定任 务的大型人工智能模型.

3. 6 预训练数据pre-trainingdata 用于模型预训练的大量新闻相关多模态数据,包括新闻报道、图像、音视频等.

3. 7 指令/提示词prompt 给预训练模型提示输入模型的参数信息,描述间题需求类型,帮助模型更好地理解输入的意图,并

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)