T/CIATCM 100-2023 中医药文本挖掘数据集构建规范.pdf

100,2023,CIATCM,pdf,中医药,团体标准
文档页数:7
文档大小:249.51KB
文档格式:pdf
文档分类:团体标准
上传会员:
上传日期:
最后更新:

ICS 35.240.80 团 体 标 准 T/CIATCM100-2023 中医药文本挖掘数据集构建规范 Specification for the construction of Traditional Chinese Medicine text mining datasets 2023-07-15发布 2023-08-01实施 中国中医药信息学会 发布
T/CIATCM 目次 前言. II 1范围 2规范性引用文件 3术语和定义. 4构建原则 4.1目标明确. 4.2确定标准. .1 4.3选代改进 .1 4.4评估性强 5构建一般步骤 2 6构建主要方法. 2 6.1明确建模需求.. .2 6.2数据标注加工 .2 6.3数据审核评估. 2 6.4数据修订完善 2 附录A(资料性)文本数据常见标注加工模式 .3 A.1需求方标注. .3 A.2第三方标注 .3 A.3众包标注. 附录B(资料性)面向信息抽取的文本数据常见标注方法 B.1命名实体识别数据集标注方法. B.2关系抽取数据集标注方法.
T/CIATCM 前言 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草.

请注意本文件的某些内容可能涉及专利.

本文件的发布机构不承担识别专利的责任.

本文件由中国中医药信息学会提出并归口.

本文件起草单位:北京交通大学、中国中医科学院中医药数据中心、湖北中医药大学、湖北省中医 院、河南中医药大学.

本文件主要起草人:周雪忠、刘保延、常凯、夏佳楠、杨扩、肖勇、郡灯莹、舒梓心、田昊宇、李 晓东、周亚娜、余海滨、孙海龙、花睿.

T/CIATCM 100-2023 中医药文本挖掘数据集构建规范 1范围 本文件规定了中医药临床病历、古籍、文献等适用于机器学习领域文本挖掘数据集构建的基本 原则和要求.

本文件适用于中医医疗、科研、教学、信息化建设等领域数据处理、交换与共享.

2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款.

其中,注明日期的引 用文件,仅该日期对应的版本适用于本文件:未注明日期的引用文件,其最新版本(包括的修 改单)适用于本文件.

GB/T20000.1-2014标准化工作指南第1部分:标准化和相关活动的通用术语 T/CIATCM058-2019中医药信息标准编制通则 3术语和定义 下列术语和定义适用于本文件.

3. 1 基准数据集benchmarkdataset 用于机器学习模型训练的,符合一定规范要求的数据集.

3. 2 文本挖掘数据集datasetfortextmining 适用于文本挖掘任务,如命名实体识别、关系抽取、文本分类等模型训练与测试要求的数据集.

4构建原则 4.1目标明确 明确数据集所要解决的实际问题,确定数据标注的深度与广度.

4.2确定标准 数据集自身采用的标签与特征应达到行业共识,确保数据集的规范性和可靠性.

4.3选代改进 构建最小必要数据集完整闭环,能快速形成数量级的选代提升和改进,形成更大规模数据集.

4.4评估性强 针对命名实体识别、关系抽取、事件抽取、文本分类等不同任务,在评价指标上能取得较好的 效果,可持续估计并不断完善.

T/CIATCM 5构建一般步骤 a)明确建模需求,明确数据集预期支撑的建模任务: b)数据标注加工,按照预定目标及要求进行人工标注: c)数据审核评估,对数据集进行规范性与完整性审核与评估: d)数据修订完善,根据评估结果对数据集不断选代加工与修改完善.

6构建主要方法 6.1明确建模需求 在此阶段,应当明确数据集构建的模型服务目标和任务,根据模型的需求确定数据标注的形式 与内容.

a)数据预处理:包括文本分段、去除停用词、词干提取、词形还原、词袋模型、词嵌入等: b)明确建模类型:明确支撑哪类模型的构建,如命名实体识别、关系抽取、事件抽取和文本分 类等: c)明确标签类别与数量:根据任务明确支撑模型构建所需要的标签类别与数量.

例如,命名实 体识别中的实体类别及数量,关系抽取中的关系类别及数量、文本分类中的类别标签及数量等.

6.2数据标注加工 在此阶段,可借助相应的软件系统,完成中医药文本数据的标注与加工,形成模型可用的数据 集,标注过程需要遵循预定的标注规则和目标.

a)手动标注:由专业人员进行人工标注: b)半自动标注:利用规则或模型进行初步标注,然后由专业人员进行修正: c)自动标注:使用训练好的模型进行标注.

文本数据常见标注加工模式见附录A,面向信息抽取的文本数据常见标注方法见附录B.

6.3数据审核评估 此阶段是对数据集的规范性、完整性等进行审核,并对相应训练后的模型性能进行评估.

a)性能指标:如标注错误率,模型的准确率、召回率、F1值、ROC曲线、AUC值等: b)人工审核:对比分析模型在哪些类型的数据上表现不好,同时进行人工审核,以便于优化.

6.4数据修订完善 此阶段是在数据审核评估后对数据集在质量和数量方面开展进一步的修订和完善,最终形成能 够支撑较好性能的文本挖掘模型的基准数据集.

a)标注错误修正:根据审核结果与模型评估结果对特定样本中存在的错误进行标注修正: b)样本数量补充:根据经典模型的训练与测试评估,适度增加标注样本的数量,以提升模型的 性能与可用性.

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)