T/CAPT 012-2024 新闻行业 大规模预训练模型 研发数据要求.pdf

012,2024,CAPT,pdf,模型,团体标准
文档页数:20
文档大小:403.78KB
文档格式:pdf
文档分类:团体标准
上传会员:
上传日期:
最后更新:

ICS35.240 CCS L 67 T/CAPT 团 体 标 准 T/CAPT012-2024 新闻行业 大规模预训练模型 研发数据 要求 News Industry-Large-scale pre-trained models-Requirements for research and development data 2024-12-18发布 2024-12-18实施 中国新闻技术工作者联合会 发布
T/CAPT 012-2024 目次 前言 引言.. 1范围. 2规范性引用文件 3术语和定义 4训练数据使用场景, 4.1概述 4.2预训练阶段要求 4.3指令微调阶段要求 4.4多模态场景下要求 5训练数据评价.

5.1概述. 5.2评价维度 5.3评测执行 5.4评测方法 参考文献.
T/CAPT 012-2024 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草.

请注意本文件的某些内容可能涉及专利.

本文件的发布机构不承担识别专利的责任.

本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提 出.

本文件由中国新闻技术工作者联合会归口.

本文件起草单位:新华通讯社通信技术局、北京北大方正电子有限公司、杭州前方信息技术有限公 司、江苏联著实业股份有限公司、北京星震同源数字系统股份有限公司、中国互联网新闻中心、华为云 科技有限公司、中科闻歌科技股份有限公司、中联超清(北京)科技有限公司、拓尔思信息技术股份有限 公司、新华社媒体融合生产技术与系统国家重点实验室(新华融合媒体科技发展(北京)有限公司)、 中国传媒大学、深圳市创意智慧港科技有限责任公司(深圳报业集团技术公司)、中国新闻社、福建理 工大学.

本文件主要起草人:路海燕、王宇琦、张丹、王建利、刘万福、王楠、王建平、贾珣、赵伟东、朱 迅、王京、王付生、余泽鹏、区可明、罗毅、林波、成鹏、王仲豪、郑创伟、瞿曦、邓海滢、刘琼、张 鹏洲、曹娟、王志民、股圣忠、王峰、熊立波、王熠、王慕维、付蓉、孙心桐、黄菁.

II
T/CAPT 012-2024 引言 《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型 安全性要求和研发数据要求、多模态要求5部分组成.

分别从实用性、评测、安全性、研发数据和多模 态等多个角度出发,构建了一个完整的标准体系,确保大规模预训练模型在新闻行业中的有效、安全和 规范使用.

旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导.

《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时 的使用场景要求、效果要求以及产品化要求.

该标准为模型的实际应用提供了具体指导,确保模型在真 实新闻生产过程中具备足够的实用性和效果.

《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方 法和指标.

该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求,并给出了具体的评测示 例,以确保评测过程的科学性和规范性.

《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等 环节中所涉及的安全性要求.

该标准旨在保障预训练模型在新闻领域的应用中,能够遵守相关法律法规, 确保数据安全、内容合规.

《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的数 据,提出了技术要求.

该标准确保了在预训练模型研发过程中,数据的质量和规范性,从而提升模型的 性能和可靠性.

《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等 方面的要求,特别是在处理多模态数据时的技术标准.

该标准的制定,进一步拓展了预训练模型的应用 范围,使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用.

5个标准的紧密衔接和相互配合,为新闻行业的大规模预训练模型构建了一个全面面系统的框架, 为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障.

II1
T/CAPT 012-2024 新闻行业大规模预训练模型研发数据要求 1范围 本文件规定了用于新闻领域的大规模预训练模型训练数据的使用场景、训练数据评价等要求,包括 在训练、微调、评估等环节中涉及到的数据的技术要求.

本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构在新闻领域进 行大规模预训练模型构建过程中的研发活动.

2规范性引用文件 下列文件中的内容通过文中的规范性引用面构成本文件必不可少的条款.

其中,注日期的引用文件, 仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括的修改单)适用于本 文件.

GB/T20093中文新闻信息分类与代码 GB/T41867信息技术人工智能术语 3术语和定义 3. 1 大规模预训练模型large-scalepre-trained models 一种具有大规模参数和复杂计算结构的超大型机器学习模型(一般超过10亿个参数),通常由深度 神经网络构建,对海量数据进行预训练处理.

3. 2 大规模预训练语言模型large-scale pre-trainedIanguage models 一种基于大规模文本数据进行自监督学习、完成特定预训练任务,可通过零样本学习(zero-shot) 方式进行交互、并可以通过微调((fine-tuning))进行特定任务加强的自然语言处理技术.

注:其具有强大的语言理解和生成能力,可应用于常见的自然语言处理任务.

3.3 大规模预训练多模态模型large-scalepre-trainedmulti-modalmodels 一种能够在多种异构数据模态(如文本、图像、音频等)上进行表征学习的深度神经网络模型,其 核心特征在于通过大规模跨模态数据的无监督预训练,捕捉不同模态之间的语义共性与相关性,从而生 成具有广泛迁移能力的统一描述模型.

注:其特点是通过对比学习、跨模态对齐与融合机制,实现不同模态之间的高效信息交互与融合,增强在多模态任 务中的表现,如跨模态检索、视觉-语言生成、视觉问答等.

3.4 预训练pre-training 在大量通用数据上进行模型训练的过程.

3.5 微调fine-tuning 为提升人工智能模型的预测精确度,一种先以大型广泛领域数据集训练,再以小型专门领域数据集 继续训练的附加训练技术.

注:常用于解决过拟合间题.

[来源:GB/T 41867-2022 3.2.31]

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)