ICS 35.020 L79 备案号: S 中华人民共和国电子行业标准 SJ/T11615.3-2016 网络数据采集分析软件规范 第3部分:信息识别 Specificationfornetworkdata collection andanalysissoftware Part3:Informationidentification 2016-01-15发布 2016-03-01实施 中华人民共和国工业和信息化部 发布
SJ/T 11615.3-2016 前言 SJ/T11615《网络数据采集分析软件规范》系列标准分为4个部分: 一第1部分:框架; 第2部分:数据格式描述; 第3部分:信息识别; 第4部分:服务要求。
本部分为SJ/T11615的第3部务 本部分按照GB/T1.1→2009《标准化 内和编写》给出的规则起草。
请注意本文件的某些内答过能涉 支专利。
本文件的发布机 这些专利的责任。
本部分由工业和信息化部软件服务业司提出。
本部分由全国信息技术标准化技术委员会归口。
本部分起草 中心、中国电子 北京拓尔思信息技 术股份有限公司 北大 趣网络科技有限公司、上海市互联网信息办公室、厦 正电 门理工学院计 算机与信 息工租 本部分主 蔡立 振宇、胡芸、王洪俊、 卢海英、 史容 部云程、许良奇、 杨瑛、崔建峰 杨建武 、 肖
SJ/T 11615.3-2016 网络数据采集分析软件规范第3部分:信息识别 1范围 SJ/T11615的本部分规定了网络数据采集与分析软件中分析模块信息识别部分的具体要求。
注:本部分所界定的网络数据指互联网上由网民参与创造与传播的数据,可包括:新闻及评论、论坛、博客、微博 以及电子商务数据。
本部分适用于互联网数据采集和分析软件的开发商、 信息化建设单位、最终用户、第三方监理或者 开发、运行和维护等各个阶段 的相关工作。
2规范性引用文件 下列文件对 的应用是必不可少的,月是注日期的引用文件,仅注日期的版本适用于本文件。
凡是不注日期的可 引用文 新版本(包括庆有的修改单)适用于本文件 GB13000 2010 信息技 00s 通用多八位编码字符集(UCS) GB 18030 信息技 SJ/T 1161 网络数据采集分析软件规 3术语和定义 SJ/T 11615 术语和定义适用于本文件。
4信息识别概述 信息识别是信息接收者一定的目的出发,运用已有的年 信息的真伪性、有用性进行 辨认与甄别的过程。
信息识别应包含信息抽耳 5信息抽取 5.1抽取要求 信息抽取的要求如下: a)应支持结构化、半结构化、非结构化的数据源; 单机应支持GB~TB级数据管理,集群应支持TB级的海量数据管理; 应支持采集内容的自动排版; 应支持自动排重功能; e) 应支持GB18030-2005强制部分,并应与GB13000-2010相关内容建立映射关系; 应支持中英文字词混合输入。
5.2特征识别
SJ/T 11615.3--2016 特征识别应支持从互联网不断更新的信息中发现一定时期高频出现的短语,比如人名、地名、机构 名和其他常见短语。
支持按领域执行热词识别。
示例:领域的一种分类方法可分为政治、经济、军事、娱乐、体育、卫生、科技、社会生活。
对特征热度的计算应考虑两个方面: a)词语出现的频率信息。
词语出现频率越高,热度越高; b)历史波动信息。
词语近期出现频率上升曲线越陡,热度越高。
特征识别的要求如下: a)待识别的文本可包括标题、信息文本内容的属性等要素; b)应提供识别实体短语和非实体短语的功能; 示例:实体短语包括人名、地名、机构名等短语串。
非实体短语包括除了人名、地名、机构名的其他短语串,主要 是名词和动词短语串。
c)应提供选择实体短语识别的方法,识别方法应加以标示; 注:识别方法可包括隐马尔科夫模型、条件随机场等计算模型。
d)应提供选择非实体短语识别的方法,识别方法应加以标示; 注:识别方法可包括高频字符串识别算法,指基于字符串出现频率等特征进行高频串的识别及其串频统计。
e)应对候选实体短语和非实体短语串进行热度权值计算,短语的热度权值可包括两个部分:基础 权值和波动权值。
注1:基础权值的影响因素可包括标题出现频率、正文出现频率;波动权值的影响因素可包括短期基础权值变 化频率、中期基础权值变化频率和长期基础权值变化频率。
注2:短期频率与长期频率比值越高,则波动权值越高。
注3:判断热词看重的是该词的新颖程度,最终的历史波动权值越高,则新颖度越高,更符合热点特征的含义。
6数据整合 6.1文本分类 文本分类的要求如下: a)应事先确立类别的分类体系,分类体系一旦被确定,则不应改变; b)一...