ICS 33. 040. 40 CCS L78 YD 中华人民共和国通信行业标准 YD/TXXXX-XXXX 终端用远场语音采集和处理模块技术要 求和测试方法 Technicalrequirements and test methods for far-field voice acquisition and processingmodules for terminals (报批稿) 行业标准信息服务平台 [xxx×]-[x×]-[xx]发布 [xx]-[×x]-[××]实施 中华人民共和国工业和信息化部 发布
YD/T XXXX-XXXX 目次 前言 III 1范围 2规范性引用文件 3术语和定义 5总体架构... 5.1架构设计, 5.2业务交互, 6技术要求. 6.1语音采集要求 6.2语音处理模块要求 7测试方法 7.1唤醒功能测试.
7.2采集和识别功能测试, 7.3指令响应功能测试.
7.4指令响应功能测试(询问) 10 行业标准信息服务平台
YD/T XXXX-XXXX 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》给出的规 定起草.
请注意本文件的某些内容可能涉及专利.
本文件的发布机构不承担识别这些专利的责任.
本文件由中国通信标准化协会提出并归口.
本文件起草单位:深圳市兆能讯通科技有限公司、中国信息通信科技集团有限公司、中国信息通 信研究院 本文件主要起草人:李永峰、余可曼、姜超、聂秀英 行业标准信息服务平台 III
YD/T XXXXXXXX 终端用远场语音采集和处理模块技术要求和测试方法 1范围 本文件规定了智能终端在实现远场语音交互功能时的业务流程、技术要求、参数要求, 及相应的测试方法.
本文件适用于智能电视、智能机顶盒和智能音箱等语音终端,不对具体的控制硬件进行 限定,仅对本文件所必要的交互环节进行约定.
2规范性引用文件 下列文件对于本文件的应用是必不可少的.
凡是注日期的引用文件,仅注日期的版本适 用于本文件.
凡是不注日期的引用文件,其最新版本(包括的修改单)适用于本文件.
GB/T21023-2007中文语音识别系统通用技术规范 3术语和定义 GB/T21023一2007界定的以及下列术语和定义适用于本文件.
3. 1 语音识别 speechrecognition 将人类的声音信号转化为文字或者指令的过程.
[来源:GB/T21023-2007,3.1] 信息服 3. 2 语音交互 speech interaction 基于语音输入的交互模式,通过说话就可以得到设备理解并执行的过程.
3.3 语义理解semanticprehension 根据交互功能要求,进行语音转写文本后的指令识别过程.
4缩略语
YD/TXXXX-XXXX 下列缩略语适用于本文件.
AEC:回声消除(Acoustic Echo Cancellation) Al:人工智能(ArtificialIntelligence) ASR:自动语音识别(Automatic Speech Recognition) ISC:指令集(Instruction Set Computing) NLP:自然语言处理(Natural Language Processing) NS:噪声抑制(Noise Suppression) TTS:语音合成(Text-To-Speech) 5总体架构 5.1架构设计 Feedbeck (TTs..) Audlo Drieer 图 请音采集 语音处理 AECNS 图1总体架构图 如图1所示,本架构通过低功耗语音芯片使CPU休眠时仍处于待工作状态,在接收到唤 醒词后立即切换为工作状态进行音频采集交互,最终得到设备的(有屏设备屏幕或语音 ,无屏设备语音),形成一个完整的交互过程.
信息服务平台 5.2业务交互 业务交互流程如图2所示.