ICS35. 020 CCS L70 T/APOCN 武汉光谷光电中小企业产业协会团体标准 T/AP0CN0003-2024 社交媒体AI大模型平台建设规范 2024-11-06发布 2024-11-13实施 武汉光谷光电中小企业产业协会 发布
T/AP0CN 0003-2024 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草.
本文件由武汉光谷光电中小企业产业协会归口.
本文件起草单位:湖北炎川科技有限公司、上海虹安信息科技有限公司、武汉学村兄弟信息科技有 限责任公司、深圳市时代智联科技有限公司、深圳九鑫软件有限公司.
本文件主要起草人:刘星宇、彭刘玮钦、余家豪、马骏、胡玄宇、黄念念、王柯程、王澜、周长 安.
T/AP0CN 0003-2024 编制说明 (一)编制背景 随着人工智能技术的迅速发展,悟能AI大模型平台在社交媒体领域的应用日益广泛.
为了规范 悟能AI大模型平台的建设,提高其性能、可靠性和安全性,满足用户的需求,特制定本团体标准.
(二)编制目的 本标准的制定旨在为悟能AI大模型平台的建设提供指导和规范,确保平台具备高效精准的信息 处理能力、智能生成虚拟人设的能力、提升电商客户曝光度的能力,以及拟人互动和自动发布高质 量帖文的能力.
(三)编制依据 本标准依据相关法律法规、国家标准和行业标准,结合悟能AI大模型平台的特点和实际应用需 求进行编制.
(四)主要内容 本标准主要包括以下内容: 1.平台的基础架构要求,包括采用的模型(如MoE模型、Qwen2、GPT-4o、LLama3、ChatQA 等)以及多模态扩展(如微软PhiOpenAIBLIP), 2.数据采集和训练要求,包括采集20TB社媒数据进行专精训练,以及进行多层数据增强和实 时专业知识学习.
3.垂直优化要求,包括面向消费级GPU进行性能优化、多路召回重算抑制幻觉、实现20万汉 字/30万单词的上下文关联等.
4.悟能AI的能力要求,包括带货能力(如生成专业带货文、贴文中毫无违和的种草)、高质 量贴文能力(如图文匹配度高、真人出镜更真实、紧跟时事热点、上下贴文关联度高、长 中短文随机生成、干货长文生成等)、视频处理能力(如换头换脸换声音换语言、文生视 频、智能剪辑)、拟人能力(如批量生成多国有人生经历的虚拟人设、自动根据人设故事 衍变发布内容、合适时间拟人发布贴文、前后1年贴文记忆、智能判断是否转私域、能够 输出全球23种不同的语言)、评论和私信处理能力(如自动贴文回复评论、自动回复私信).
5.AI客服要求,包括理解语义、严格根据资料内容灵活回复,并能扩展到其他领域.
(五)适用范围 本标准适用于悟能AI大模型平台的建设、运营和维护.
(六)实施建议 本标准发布后,建议相关企业和机构积极采用,并在实施过程中不断总结经验,及时问题, 以便对标准进行修订和完善.
II
T/AP0CN 0003-2024 社交媒体AI大模型平台建设规范 1范围 本标准规定了悟能AI大模型的技术要求、生成虚拟人设的流程、生成专业带货文及日常帖文的要求、 自动回复私信和评论帖文的要求等.
2规范性引用文件 下列文件中的内容通过文中的规范性引用面构成本文件必不可少的条款.
其中,注日期的引用文件, 仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括的修改单)适用于本 文件.
3术语和定义 下列术语和定义适用于本文件.
3.1悟能AI大模型 是面向社交媒体应用的自研多语言多模态大模型,以Meta、微软、阿里等公司的模型架构为基础, 进行社交媒体专精的再训练.
3.2虚拟人设 由模型生成的具有特定背景、经历、职业和爱好的虚拟人物.
4技术要求 4.1模型基础 悟能AI大模型基于多个人工智能头部模型进行深度专业化训练,总参数量参数约1760亿,实时激活 量约1410亿.
4.2核心技术团队 包括具有相关专业背景和经验的人员,如胡XX(毕业于厦门大学,计算机专业,国内最早一批从事 国家互联网信息安全的从业者之一,2017年入选中组部第四批“万人计划”、科技部创新创业领军人才)、 胡XX(武汉大学博士,中国计算机学会、国际电子工程师会员)、谭X(清华大学博士,0penAI研发成 员)、张XX(卡耐基梅隆大学博士,GoogleAI研发团队成员)、骆XX(广岛大学博士,日本交通厅A1 数据分析顾间)、刘XX(涉及商业机密,履历对应真实团队成员采用隐称)、周XX(某GF院校博士)等.
4.3知识产权成果 拥有AI方向顶级会议/期刊论文6篇、申请发明专利3项、实用新型8项.
4.4基础架构 采用MoE模型(8x22B),辅助训练包括Qwen2、GPT-4o、LLama3、ChatQA等,多模态扩展结合微 软PhiOpenAIBLIP,实现文生图、图生文.
模型在多个人工智能行业头部模型基础上训练,结合多 种模型的优点生成内容,实时激活参数约1410亿.
4.5数据采集与训练 4.5.1数据训练
T/AP0CN 0003-2024 采集20TB社媒数据进行专精训练,包括垂直优化,如20万汉字/30万单词上下文及上下文关联,面 向消费级GPU进行性能优化(4080S和4090D),多路召回重算抑制幻觉,多层数据增强,实时专业知识 学习(每日学习新闻新知识),以及评论私信专属模型.
4.5.2垂直优化 a)上下文优化:具备20万汉字/30万单词的上下文记忆功能,实现上下文关联.
b)性能优化:面向消费级GPU进行性能优化(4080S和4090D),采用多路召回重算抑制幻觉, 进行多层数据增强.
c)实时知识学习:具备每日学习新闻新知识的能力,确保发布内容具备实时性.
4.6数据安全 确保数据采集、存储、传输和使用过程中的安全性,采取加密、访问控制、数据备份等措施,保护 用户隐私和数据安全.
5生成虚拟人设要求 5.1生成流程 用户选择国家/地区、年龄、带货方向,并且给定人设数量,点击生成人设:然后选择列举出的人 设,确认给出的人设故事是否符合逻辑,若符合逻辑,则点击确认,若不符合逻辑,请修改后点击确认, 此时模型生成人物的头像:最后等待模型生成完人物故事.
5.2人设特点 能够生成具有丰富人生经历、职业、爱好的虚拟人设,人设故事背景丰富多样,满足用户对个性化 角色的需求.
人设涵盖各行业、各带货方向,包括但不限于护肤、生活日用、虚拟币、厨房厨具等.
6生成专业带货文及日常帖文要求 6.1带货文 根据商品特性和目标受众,创作出具有吸引力的推广内容,并附上商品链接,帮助提升商品的曝光 度和销量.
6.2日常帖文 支持各国语言日常帖文,如“WQL21.2024-07-0819:05:21日常”.
6.3帖文特点 6.3.1种草自然 贴文中毫无违和的种草,如在相关帖文中自然提及商品.
6.3.2图文匹配 图文匹配度高,如“集关们!
分享一个超好看的美甲,真的超爱这个奶fufu可爱的小短甲”的帖文与 相应的关甲图片匹配.
6.3.3真人出镜 能够生成真人出镜更真实的帖文.
6.3.4紧跟热点 实时追踪全球动态,智能生成热点内容,自动配图提升视觉.
例如,能够生成如“在北京时间7月 10日结束的关洲杯首场半决赛中,卫冕冠军阿根廷2-0击败加拿大,近5届美洲杯4次路身决赛.
本场比 2