ICS 35. 030 CCS L 70 D 中华人民共和国通信行业标准 YD/TXXXX-202X 基于人工智能的诈骗电话号码识别技术要 求 Technicalrequirementsofmunicationinformation fraudnumberidentificationbasedonartificial 行业标准信息服务平台 intelligence 20××-××-××发布 20XX-XX-XX实施 中华人民共和国工业和信息化部发布
XX/TXXXXXXXXX 目次 前 1.范围... 2.规范性引用文件 3.术语和定义. 4.缩略语.. 5.总体技术架构. 5.1基本原理. 5.1.1疑似违规号码识别 5.1.2语音自动化判定.
5 5.2总体架构.. 6.总体技术要求, 6.1业务管理.. 6.2系统处理模块. 6.2.1概述 6.2.2语音识别 6.2.3指纹训练. 6.3系统管理模块. 6.4数据管理模块. 6.5系统接口模块. 6 附录A(规范性)疑似违规号码识别 10 A.1CDR字段 10 A.2统计属性表.. 10 A.3衍生属性. .11 A.4衍生指标信息表 11 附录B(资料性) 语音自动化判定方法 13 B.1相似音频模糊匹配 .13 B.2语音识别分析. 务平 13
XX/TXXXXXXXXX 前言 的规定起草.
请注意本文件的某些内容可能涉及专利.
本文件的发布机构不承担识别专利的责任.
本文件由中国通信标准化协会提出并归口.
本文件起草单位:中国移动通信集团有限公司,北京邮电大学,华为技术有限公司,中 兴通讯股份有限公司,国家计算机网络应急技术处理协调中心.
本文件主要起草人于乐、张峰、赵帅、刘利军、江为强、程渤、冯运波、游世林、林 兆骥、舒敏、王文磊.
行业标准信息服务平台 II
XX/TXXXXXXXXX 基于人工智能的诈骗电话号码识别技术要求 1.范围 本文件规定了基于人工智能的诈骗号码识别的具体技术要求,主要包括总体技术架构、 业务管理、系统处理、系统管理、数据管理及系统接口等.
本文件适用于基础电信企业使用人工智能技术进行诈骗号码的识别.
2.规范性引用文件 本文件没有规范性引用文件.
3.术语和定义 下列术语和定义适用于本文件.
3. 1 原始数据rawdata 采集到的数据,未做任何加工处理.
3. 2 统计数据statisticeldata 对原始数据进行统计分析,获得统计分析数据.
3.3 衍生数据deriveddata 对原始数据进行了加工、计算、聚合而形成的系统、可读取、有使用价值的数据.
3.4 音频指纹特征audio fingerprintfeature 对音频进行特征分析,提取音频特征作为音频的指纹特征,方便音频检索与比对.
XX/TXXXXXXXXX 4.缩略语 下列缩略语适用于本文件.
CDR:呼叫详细记录(Cal1Detai1Record) IMSI:国际移动用户识别码(International Mobile Subscriber Identity) 5. 总体技术架构 5.1基本原理 基于人工智能的诈骗号码的识别过程中通过两个环节融合办法进行分析判别,分步实施.
图1给出了总体流程,分为疑似违规号码识别和语音自动化判断两步骤.
首先,疑似违规号 码识别是通过用户通信信令数据采用大数据分析挖掘手段对话单中的疑似骚扰电话进行识 别,在此过程中,主要集中用户主、被叫号码的呼叫特征,并进一步归纳得到统计属性与衍 生属性指标,通过识别分类预测算法对违规电话进行识别,并对算法进行调优,得到疑似违 规电话识别模型然后,语音自动化判定部分主要是为进一步确认违规号码,可对疑似号码 进行录音取证后,采用音频分析算法来挖掘违规语音,从而发现违规号码.
I.疑似违规号码识别 IL.语音自动化判定 疑似违规号码 数据采集 通话语音 ↑ 提取 相似音频模糊匹 号码历史 模板库 配 话单信息 基本统 医配成 量 计指标 功 模型所需通信信息 表建立 规则库 语音识别分析 (教照词) 循环 医配成 是 息服 功 分类识别模型 优化 模型 人工审核 模型测 优诈制 试验证 电话 疑似违规电话识别 并输出 疆扰诈 正常 预电话 通话 图1总体流程 5.1.1疑似违规号码识别 4