ICS35.240 CCS L 70 T/CAPT 团 体 标 准 T/CAPT011-2024 新闻行业 大规模预训练模型 语言模型 评测要求 News IndustryLarge-scale pre-trained modelsRequirements for language model evaluation 2024-12-18发布 2024-12-18实施 中国新闻技术工作者联合会 发布
T/CAPT 011-2024 目次 前言 引言... III 1范围. 2规范性引用文件 3术语和定义 4评测指标. 4.1概述. 4.2性能评测指标 4.3内容评测指标 5评测方法.. 5.1评测流程. 5.2评测数据集.
5.3评测结果获取工具, 5.4自动化评测方法, 5.5人工评测方法 6内容评测指标权重, 附录A(规范性) 评测指标档次界定, 附录B(资料性) 自动化评测方法示例, 10 B.1自动化评测标准格式示例, 10 B.2指令跟随评测示例, 10 附录C(规范性) 单项评测的指标权重.
12 C.1媒体文本创作类单项评测指标权重 12 C.2媒体文本编辑类单项评测指标权重 15 C.3媒体文本理解类单项评测指标权重 17 C.4媒体数据增强类单项评测指标权重 18 参考文献. 19
T/CAPT011-2024 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草.
请注意本文件的某些内容可能涉及专利.
本文件的发布机构不承担识别专利的责任.
本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提 出.
本文件由中国新闻技术工作者联合会归口.
本文件起草单位:新华社媒体融合生产技术与系统国家重点实验室(新华融合媒体科技发展(北京) 有限公司)、新华通讯社通信技术局、东南大学、上海算法创新研究院、传播大脑科技(浙江)股份有 限公司、新华智云科技有限公司、拓尔思信息技术股份有限公司、大众报业集团(大众日报社)、北京 北大方正电子有限公司、中国传媒大学、深圳创意智慧港科技有限责任公司(深圳报业集团技术公司)、 福建理工大学.
本文件主要起草人:路海燕、邓海滢、王仲豪、杨鹏、白子健、杨冬梅、唐波、熊飞宇、李志宇、 余钰、席晨阳、刘丽芳、张健、张静、滕思、宋海洋、余泽鹏、区可明、汤代禄、陈圣琳、张震、张 丹、贾艾婧、罗毅、林波、成鹏、王宇琦、郑创伟、瞿曦、刘琼、张鹏洲、曹娟、王熠、梅春霖、黄菁、 付蓉、王志民.
II
T/CAPT 011-2024 引言 《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型 安全性要求和研发数据要求、多模态要求5部分组成.
分别从实用性、评测、安全性、研发数据和多模 态等多个角度出发,构建了一个完整的标准体系,确保大规模预训练模型在新闻行业中的有效、安全和 规范使用.
旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导.
《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时 的使用场景要求、效果要求以及产品化要求.
该标准为模型的实际应用提供了具体指导,确保模型在真 实新闻生产过程中具备足够的实用性和效果.
《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方 法和指标.
该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求,并给出了具体的评测示 例,以确保评测过程的科学性和规范性.
《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等 环节中所涉及的安全性要求.
该标准旨在保障预训练模型在新闻领域的应用中,能够遵守相关法律法规, 确保数据安全、内容合规.
《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的数 据,提出了技术要求.
该标准确保了在预训练模型研发过程中,数据的质量和规范性,从而提升模型的 性能和可靠性.
《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等 方面的要求,特别是在处理多模态数据时的技术标准.
该标准的制定,进一步拓展了预训练模型的应用 范围,使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用.
5个标准的紧密衔接和相互配合,为新闻行业的大规模预训练模型构建了一个全面面系统的框架, 为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障.
II1
T/CAPT 011-2024 新闻行业大规模预训练模型语言模型评测要求 1范围 本文件规定了新闻行业大规模预训练模型中语言模型的评测指标、评测方法、内容评测指标权重.
本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构在新闻领域大 规模预训练模型运用中语言模型的评测活动.
2规范性引用文件 下列文件中的内容通过文中的规范性引用面构成本文件必不可少的条款.
其中,注日期的引用文件, 仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括的修改单)适用于本 文件.
GB/T41867信息技术人工智能术语 T/CAPT010-2024《新闻行业大规模预训练模型语言模型实用性要求》 T/CAPT013-2024《新闻行业大规模预训练模型语言模型安全性要求》 3术语和定义 GB/T41867界定的以及下列术语和定义适用于本文件.
3. 1 大规模预训练模型large-scalepre-trainedmodels 一种具有大规模参数和复杂计算结构的超大型机器学习模型(一般超过10亿个参数),通常由深 度神经网络构建,对海量数据进行预训练处理.
3. 2 大规模预训练语言模型large-scale pre-trained languagemodels 一种通过在海量文本数据上进行预训练而构建的自然语言处理模型,通常基于深度学习框架,通过 自监督学习从无标注的数据中学习语法、语言和知识等,可通过零样本(zero-shot)方式进行交互、 并可以通过微调(finetune)进行特定任务加强.
注:其特点是模型规模庞大,能够在广泛的领域中表现出卓越的语言理解和生成能力.
3. 3 评测问题evaluationquestion 评测模型效果的样本输入,具体形式包括用于获取预训练模型输出的输入.
3. 4 指令/提示词prompt 给预训练模型提示输入模型的参数信息,描述间题需求类型,帮助模型更好地理解输入的意图,并 作出相应的响应.
4缩略语 下列缩略语适用于本文件.
API:应用编程接口(Application Programming Interface) SDK:软件开发工具包(Software Development Kit) CLI:命令行界面(CommandlineInterface)