ICS 35. 80 L 77 T/SCBDIF 团体标准 T/SCBDIF001-2024 AI大模型应用能力成熟度评价标准 AILarge Model Application Capability Maturity Evaluation Standard 2024-09-30发布 2024-12-01实施 四川省大数据产业联合会发布
T/SCBD1F 001-2024 目录 目录. AI大模型应用能力成熟度评价标准, 1.目的和范围 5 2.规范性引用文件.
3.术语和定义 6 3.1.大模型(Large Model) 6 3.2.模型开发(ModelDevelopment) 6 3.3.模型能力(Model Capability) 6 3.4.模型运营(ModelOperation) 6 3.5.模型应用(ModelApplication) 6 3.6.安全可信(Security and Trustworthiness) 3.7.服务能力成熟度评估(Service Capability Maturity Assessment) 3.8.智能化软件工程技术和应用要求(Intelligent Software Engineering Technology and Application Requirements) 4.评价原则, 5.评价维度, 6.总体评价方法, 6.1.定量评估, 6.2.定性评估. 8 7.各维度评价方法和流程, 7.1.任务支持度评价方法和流程 7.2.场景丰富度评价方法和流程 13 7.3.行业覆盖度评价方法和流程 25 7.4.服务成熟度评估方法和流程, 28 7.5.评价过程. 34 7.6.评价结果的应用 35 7.7.标准更新与维护 35
T/SCBD1F 001-2024 本标准按照GB/T1.1-2009给出的规则起草.
本标准由四川大数据产业联合会提出并归口.
本标准起草单位 四川省大数据产业联合会(四川省大数据产业联合会先进算力研究中心) 中国电信股份有限公司四川分公司 北京百度网讯科技有限公司 成都百智云行科技有限公司 成都智算中心 华为技术有限公司(四川代表处) 云南南天电子信息产业股份有限公司 成都数之联科技股份有限公司 金蝶软件(中国)有限公司四川省公司 用友网络科技股份有限公司四川区 成都明途科技有限公司 成都同步新创科技股份有限公司 钉钉(中国)信息技术有限公司 四川生学教育科技有限公司 北森云计算有限公司 本标准主要起草人 朱小军、王艳、徐思宇、蓝青、沈跃锦、姜啸、廖显、左川民、傅彦、郑墩芝、严帅、 孟胜、张何君、雍瑞雯、叶珩、邵郑涵、陈长志 本标准首次发布 本文件内容若涉及相关专利,本文件的发布机构不承担识别这些专利的责任.
T/SCBD1F001-2024 引言 当前,国产大模型科研创新加速,成为国家综合科技实力的体现.
AI大模型是当代人工智能技术 革新的前沿,它通过海量数据训练,具备强大的语言理解、生成和逻辑推理能力,深刻地改变信息处理、 决策支持、内容创作等多个领域.
AI大模型不仅提升了生产效率和准确性,还推动了个性化服务和智 能交互的发展,成为推动各行各业数字化转型和智能化升级的关键驱动力.
AI大模型不仅包括语言模 型(如GPT系列)、视觉模型(如 ResNet、Transformer)、多模态模型,还包括经过农业、制造业、 医疗、法律、交通和金融等垂直行业领域特定数据训练以解决特定行业复杂问题的专业模型.
除此以外, 还包括用于辅助或自动化决策过程的决策支持模型,以及生成对抗网络(GANs)等,用于创建逼真的图 像或模拟复杂场景.
各类AI大模型模型各有专长,正推动着人工智能技术的多样化发展和广泛应用.
与此同时,不同种类的大模型由于技术路线不同、应用场景不同,缺乏统一的能力评价体系.
编制AI大模型应用能力成熟度评价团体标准,对于促进人工智能产业的健康发展,具有深远的积 极意义.
通过编制和发布AI大模型应用能力成熟度评价团体标准, 一是有助于构建统一的评估框架,确保各类大模型的能力得到客观、全面的衡量,促进技术发展的 标准化与规范化: 二是通过成熟度评价,能够明确不同模型在不同场景下的适用性,为企业和机构在选择与应用AI 大模型时提供科学依据,避免盲目跟风或资源浪费: 三是标准将推动AI大模型技术的持续创新与优化,激励科研机构和企业在特定领域深耕细作,加 速技术选代与产业升级: 四是成熟度评价团体标准还有助于提升公众对AI技术的信任度,通过透明化评估结果,展示AI 大模型的实际应用成效与社会价值,为人工智能技术的健康发展营造良好的社会氛围.
T/SCBD1F 001-2024 AI大模型应用能力成熟度评价标准 1.目的和范围 本标准旨在为AI大模型在不同应用场景下的能力成熟度提供评估框架和方法,确保评估的严谨性、 细致性和实用性.
本标准适用于评估AI大模型在各类应用场景中的性能表现、稳定性、可靠性及用户满意度等.
2.规范性引用文件 文件对于本文件的应用是必不可少的.
凡是注日期的引用文件,仅注日期的版本适用于本文件.
凡 是不注日期的引用文件,其最新版本(包括的修改单)适用于本文件.
同时,在制定标准的过程中参考《2023年AI大模型应用研究报告》中对AI大模型的分类、应用场景 和发展趋势的分析,以及《国内主流AI大模型架构及应用场景深度分析2024》中对厂商竞争力评价的四 大基线和评价模型及指标体系的描述.
这些资料提供了AI大模型应用效能评价的宝贵信息和方法论基础.
同时,也可以借鉴《2023年AI大模型应用研究报告》中提及的AI大模型在不同行业中的应用案例和发展 趋势,以确保标准的实用性和前瞻性.
T/CI 155-2023 基于多模态大模型的智慧交通出行技术规范 T/ZGTXXH 计算产品先进性评估规范:第一部分:人工智能芯片先进性评估指 标与评估方法 T/GDEIIA 08-2023 基于大模型的政务咨询系统技术要求与评估方法 T/BECC 002-2024 智算中心技术要求和评估方法 T/QDAIIA 007-2024 生成式人工智能(AIGC)大模型功能测试指标体系 T/AIA 012-2024 生成式人工智能(AIGC)大模型功能测试指标体系 T/BMISC 001-2024 医疗领域大模型应用数据安全规范