首页 > 医疗资讯/ 正文

【协和医学杂志】我国医疗标准及规范中真实世界数据治理要求及技术要点

来源 2025-09-01 12:13:14 医疗资讯

真实世界证据(RWE)作为传统随机对照试验的补充,在支持监管决策中的应用不断增强[1]。随着对真实世界研究( RWS)的深入,为了确保RWS的科学性、规范性和可靠性,国内外越来越多的规范相继出台,不断解决RWS中存在的数据来源[2]、数据标准[3]、真实世界数据(RWD)质量评价[4-5]、RWE计划框架[6]、RWE应用范围[7-8]、RWS统计分析方法[4]等方面的问题,以提高RWE的可靠性,进一步推动RWS的高质量持续发展。

数据治理是产生高质量且适用的RWD的基础,为产生高质量RWE提供保障,并非所有经过分析的数据都能成为RWE[5]。为保证RWD的有效使用,解决如何将收集到的RWD转化为临床研究所需的分析数据,并评估其是否适用于生成RWE等问题,国家药品监督管理局药品审评中心发布了《用于产生真实世界证据的真实世界数据指导原则(试行)》(以下简称为“指导原则”),明确了数据治理过程中的内容和各个环节要求,为科学规范数据治理提供了指导性建议。

基于当前的标准、指南与规范,研究者可基本明确监管部门对于数据治理的期望,然而,在实际研究中如何实现这些期望,以及如何制订具体实践方法仍需进一步深入探索。本研究通过梳理和分析我国RWS规范中数据治理相关内容、要求与技术方法,以期为后续数据治理标准、规范的制订提供参考。

1 资料与方法

1.1 文献检索策略

检索中国知网(CNKI)、万方数据知识服务平台(Wanfang Data)、维普网(VIP)和中国生物医学文献数据库(SinoMed)以及中华医学会、中华中医药学会在内的国内29家一级学会官网、全国标准信息公共服务平台。检索时间范围为建库至2023年12月12日。

检索策略的检索词包含“指南”“共识”“标准”“规范”“指导”“真实世界”“医疗数据”“医院数据”“医保数据”“登记研究数据”“主动监测数据”“队列数据”“组学数据”“死亡登记数据”等。

纳入标准:(1)文献主题:用于规范与医疗、卫生与健康相关的数据;(2)文献类型:指南、共识、标准、规范、指导原则、专家共识、法规;(3)若同时具有2个及以上版本时,纳入最新版本。

排除标准:(1)学位论文、专利;(2)重复发表文献;(3)对文献内容解读后没有体现数据治理的内容;(4)已经废止的规范。

1.2 文献筛选与资料提取

制定资料提取表,2名研究者按照标准进行独立筛选和资料提取。过程中如遇分歧,请第三名研究人员共同决策。资料提取表的基本内容包括规范的来源、发布时间、是否提及数据治理、对于治理环节的关注点、主要内容概括、对应RWD类型。我国目前尚未建立统一的医学数据整合通用数据模型,仅在极少数标准规范中提及,未提供技术指导,而现有标准规范多为某几个治理环节的技术指导。除国家药品监督管理局发布的指导原则外,未找到数据治理全流程计划书。因此,本研究以该指导原则中数据治理前6个环节(数据安全、数据提取、数据清洗、数据转化、数据传输与存储、质量控制)[5]为架构,梳理数据治理过程中可参考的标准和规范。

2 结果

2.1 基本特征

根据纳入和排除标准,最终入选标准、规范共计32部,具体筛选流程见图1。其中,15部为医疗基础类数据标准,17部为数据治理技术规范。

图片

图1 文献筛选流程图

2.1.1 医疗基础类数据标准

15部医疗基础类数据标准主要涵盖数据集的元数据与数据元信息标准、数据语义层面的术语标准、数据格式标准3个层面。其中,电子病历、健康档案、卫生健康信息等均为RWD来源,内容整体覆盖了关键的数据要素,可基本满足数据标准化的需求,详见表1。

表1 15部医疗基础类数据标准的标准化对象及内容

图片

2.1.2 数据治理技术规范

17部数据治理技术规范数据来源多为健康大数据、医疗大数据,主要为混杂RWD、临床试验数据或RWD。内容上整体偏向原则性规范,技术细则较少,其中12部涵盖1个数据治理环节,5部涵盖多个数据治理环节。内容以治理工作的要求与指导性建议为主,数据安全和提取方面的要求及方法相对明确,然而在数据转化和质量控制方面的规范技术指导较为有限,数据清洗、传输和存储环节则缺乏明确的实施路径,详见表2。

表2 17部数据治理技术规范涵盖内容及数据来源

图片

图片

2.2 数据治理技术要点

基础类数据标准旨在保证数据的一致性和准确性,是数据治理体系的基础。在操作细节方面,标准、规范技术较全面的评价标准为:应包括具体要求与标准,并提供应采用的技术及其实施步骤和方法。根据表2中17部治理规范分类,总结各环节治理规范的技术要点见图2。

图片

图2 数据治理各环节技术要点

2.2.1 数据安全

应确保数据安全覆盖整个数据生命周期。 首先,采用校验技术、 加密技术、 电子签名与时间戳等手段保障数据在采集、 传输和存储过程中的安全性; 其次, 实施备份恢复、 剩余信息保护、 存储介质管控等措施确保数据存储安全。 对数据的使用者和控制者应进行审批授权、 身份鉴别、 访问控制与审计, 建立应急处置机制, 有效应对安全威胁。 在数据披露、 共享和开放时, 遵照国家标准处理个人敏感信息, 并去标识化处理。 此外, 可根据数据重要程度、 风险级别和不同场景需求, 采取相应的安全保护措施。 

2.2.2 数据提取

在数据提取前,应采用泛化、随机化、重排、置换、屏蔽、替代等技术对数据进行脱敏,确保无法通过数据本身或与其他数据结合重新识别出个人身份或敏感信息。数据提取时,根据数据源类型(如文本文件、影像、结构化数据等)和存储类型(如关系型数据库、数据仓库、分布式文件系统等),综合考虑数据来源及源数据库特征,采用集群、分布式存储、分布式计算、ETL技术,对非结构化数据结构化处理,对结构化数据提取入库。数据提取后,对数据进行验证,包括检查异常值、完整性、一致性和时间序列一致性。

2.2.3 数据清洗

数据清洗包括对原始数据的重复值与缺失值处理、格式与编码一致性检查、逻辑验证、对照映射。这些步骤的具体操作细节与标准流程目前尚未明确。

2.2.4 数据转化

数据转化包括数据标准化、结构化处理、衍生变量计算。遵循统一数据标准,如国家与卫生行业标准(GB/WS)以及ICD、DICOM、MedDRA等国际通用标准,在数据格式、医学术语、代码编码上对非标准数据转换处理。利用自然语言处理和数据挖掘技术通过分词、消歧、模板匹配和语义分析,将非结构化文本转换为便于存储、查找和分析的结构化数据。还可利用事件和变量字典结合文本标注和分词技术,识别并关联文本中的事件、实体和变量,提升数据的可理解性和利用价值。在纳入本研究的标准规范中,列举了上述数据转化技术,但对于其具体实施和应用方法仍未明确说明。

2.2.5 数据传输与储存

数据传输与存储过程中应采取加密保护以保障数据安全。根据数据量与复杂程度选择数据存储技术架构,如目前主流的Hadoop,支持结构化、半结构化、非结构化数据分布式存储。数据存储方案包括数据库、数据仓库、数据平台。纳入本研究的标准规范主要侧重于提升数据库质量的方法论,但在搭建数据存储系统的技术路线细节方面内容较少,技术的实现仍需明确。

2.2.6 质量控制

数据质量控制贯穿整个生命周期的各个阶段,包括数据的提取、处理、清洗、转化、存储、统计分析等环节。应建立全面的质量管理体系、标准操作规范和质量管理计划,通过专家评估和数学分析评价数据质量,保留审计轨迹和质量核查规则,以确保数据的准确性、真实性和完整性。在技术层面,可利用数据质量校验规则库和质量控制系统维护和管理数据。本研究32部标准规范的质量控制体系与计划框架已基本明确,然而在实施方法及全流程管理过程中的具体步骤尚不完善。

3 讨论

本研究依据国家药品监督管理局发布的指导原则梳理了我国现有医疗标准、规范,发现我国标准、规范在数据安全和提取方面的要求和方法相对明确,然而在数据转化和质量控制方面技术指导较为有限,数据清洗、传输和存储环节则缺乏明确的实施路径。现行的RWD规范侧重于要求和指导性建议,缺乏详尽的操作细则、技术实施方法以及健全的RWD治理体系,导致实际开展治理工作时仍有难度。

在对多源异构RWD治理时,应利用基础类数据标准将源数据标准化为通用结构、格式与术语,保证能跨数据集、数据库进行数据整合。为此,本研究总结了数据治理各环节技术要点(图2),建议在采用上述治理方法前,先根据不同来源、类型、功能的RWD及其采集方式(如现场调查、随访监测、问卷调查、临床诊断、生物样本采集等)进行初步评估。考虑数据质量(完整性、一致性、准确性)、存储格式(文本、XML、二进制等)以及研究目的和应用场景(健康管理、药械追溯、人用经验总结等)的不同,选择合适的治理方法。

由于RWD来源多、数据复杂、应用面广,通用性规范很难完全覆盖治理需求。相关部门可从专病专科角度,制定特异性数据治理规范,因为特定研究场景与数据特点共同影响数据治理的侧重点和标准流程。例如,组学真实世界研究需更加重视伦理审查和数据安全;中药人用经验信息处理包括定量(临床资料)与定性数据(访谈)的整合。因此治理标准与规范不仅应关注数据本身处理,还应从某一疾病、病种(专病)或某一学科、领域(专科),根据其研究目的与设计、源数据特点分层制定标准、规范。此外,监管部门应发布标准和指南,应明确不同来源的RWD在支持具体监管决策时,必须采取的治理方案,使相关人员进一步明确监管部门期望,有的放矢开展治理工作。

数据治理技术不断完善,正在与人工智能等新兴技术更紧密融合。目前已有研究借助区块链技术确保数据隐私和安全[41-42],通过自然语言处理技术提取和管理非结构化数据[43],云计算提供高效的数据存储和处理能力[44],深度学习分析图像数据与处理复杂多模态数据[45-46]。未来会有更多先进技术帮助优化自动化工作流程,进一步提升数据处理效率,并在数据治理的各个环节中发挥关键作用,使得数据治理更加智能化。

数据治理作为数据管理高层次的规划,包含复杂且具体的操作流程、政策制定、监督控制方案,既发挥指导、决策与控制作用,同时又是宏观的理论体系。RWS相关标准与规范的完善仍需时间沉淀,高质量RWS根植于高质量RWD,其中数据治理是必经之路。有了《指导原则》搭建的治理框架,后续规范标准的内容应更加完善和具体,比如根据不同的数据类型、研究目的、应用场景以及中西医等方面进行细化,切实解决RWD治理难题。

参考文献

[1]Purpura C A, Garry E M, Honig N, et al. The role of real-world evidence in FDA-approved new drug and biologics license applications[J]. Clin Pharmacol Ther, 2022, 111(1): 135-144.

[2]Food and Drug Administration. Use of real-world evidence to support regulatory decision-making for medical devices[EB/OL]. [2024-06-10]. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/use-real-world-evidence-support-regulatory-decision-making-medical-devices.

[3]U.S. Department of Health and Human Services, Food and Drug Administration, Center for Drug Evaluation and Research (CDER), et al. Use of electronic health record data in clinical investigations guidance for industry[EB/OL]. (2018-07-18)[2024-06-10]. https://www.fda.gov/media/97567/download.

[4]国家药品监督管理局. 国家药监局关于发布真实世界数据用于医疗器械临床评价技术指导原则(试行)的通告[EB/OL]. (2020-11-26)[2024-06-10]. https://www.nmpa.gov.cn/xxgk/ggtg/ylqxggtg/ylqxqtggtg/20201126090 030150.html.

[5]国家药品监督管理局药品审评中心. 国家药监局药审中心关于发布《用于产生真实世界证据的真实世界数据指导原则(试行)》的通告[EB/OL]. (2021-04-15)[2024-06-10]. https://www.cde.org.cn/main/news/viewInfoCommon/2a1c437ed54e7b838a7e86f4ac21c539.

[6]U.S. Food and Drug Administration. Framework for FDA's real-world evidence program[EB/OL]. [2024-06-10]. https://www.fda.gov/media/120060/download.

[7]国家药品监督管理局药品审评中心. 国家药监局药审中心关于发布《真实世界研究支持儿童药物研发与审评的技术指导原则(试行)》的通告[EB/OL]. (2020-09-01)[2024-06-10]. https://www.nmpa.gov.cn/xxgk/ggtg/ypggtg/ypqtggtg/20200901104448101.html.

[8]U.S. Department of Health and Human Services, Food and Drug Administration, Center for Drug Evaluation and Research (CDER), et al. Submitting documents using real-world data and real-world evidence to FDA for drug and biological products[EB/OL]. (2022-09-08)[2024-06-10]. https://www.fda.gov/media/124795/download.

[9]中华人民共和国卫生部, 国家中医药管理局. 卫生部、国家中医药管理局关于印发《电子病历基本架构与数据标准(试行)》的通知[EB/OL]. (2009-12-31)[2024-06-09]. http://www.nhc.gov.cn/bgt/s6718/200912/45414.shtml.

[10]中华人民共和国国家卫生健康委员会. 健康档案公用数据元标准(试行)[EB/OL]. (2009-05-19)[2024-06-10]. http://www.nhc.gov.cn/wjw/gfxwj/201304/157b2 b0e8af6402289588a98a9614629.shtml.

[11]中华人民共和国卫生部. 卫生部关于印发《健康档案基本架构与数据标准(试行)》的通知[EB/OL]. (2009-05-19)[2024-06-10]. http://www.nhc.gov.cn/bgt/s9510/200905/78c2d1f1c917401f9a8905a4ea29c34c.shtml.

[12]中华人民共和国国家市场监督管理总局, 中国国家标准化管理委员会. 健康信息学 中医药数据集分类: GB/T 38327-2019[S]. 北京: 中国标准出版社, 2019.

[13]中华人民共和国国家卫生健康委员会. 卫生健康信息数据元标准化规则: WS/T 303-2023[S]. 北京: 中国标准出版社, 2023.

[14]中华人民共和国国家卫生健康委员会. 卫生健康信息数据模式描述指南: WS/T 304-2023[S]. 北京: 中国标准出版社, 2023.

[15]中华人民共和国国家卫生健康委员会. 卫生健康信息数据集元数据标准: WS/T 305-2023[S]. 北京: 中国标准出版社, 2023.

[16]中华人民共和国国家卫生健康委员会. 关于发布《卫生健康信息数据元目录 第1部分: 总则》等34项推荐性卫生行业标准的通告[EB/OL]. (2023-10-30)[2024-06-09]. http://www.nhc.gov.cn/fzs/s7852d/202310/b02b9e310c25477faeff44b2be8ef1a1.shtml.

[17]中华人民共和国国家卫生和计划生育委员会. 关于发布《电子病历基本数据集第1部分: 病例概要》等20项卫生行业标准的通告(国卫通〔2014〕5号)[EB/OL]. (2014-06-19)[2024-06-09]. http://www.nhc.gov.cn/fzs/s7852d/201406/a14c0b813b844c9dbd113f126fa9cb17.shtml.

[18]国家中医药管理局, 中华人民共和国国家卫生健康委员会. 国家中医药管理局国家中医药管理局 国家卫生健康委员会关于印发《中医病证分类与代码》和《中医临床诊疗术语》的通知[EB/OL]. (2020-11-16)[2024-06-09]. https://www.gov.cn/zhengce/zhengceku/2020-11/24/content_5563703.htm.

[19]中华中医药学会. 《中医临床名词术语》《中医临床诊疗术语》等11项国家标准通过发布审查[EB/OL]. (2022-10-10)[2024-06-09]. https://www.cacm.org.cn/2022/10/10/19986/.

[20]中华人民共和国国家卫生健康委员会. 国家卫生健康委关于印发常用临床医学名词(2023年版)的通知[EB/OL]. (2024-03-14)[2024-06-09]. http://www.nhc.gov.cn/yzygj/s7659/202403/bdb6d9140b734323b49c9764 deba8c45.shtml.

[21]中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. 疾病分类与代码: GB/T 14396-2016[S]. 北京: 中国标准出版社, 2016.

[22]中华人民共和国国家卫生和计划生育委员会. 关于发布《电子病历共享文档规范 第1部分: 病历概要》等57项卫生行业标准的通告[EB/OL]. (2016-09-12)[2024-06-09]. http://www.nhc.gov.cn/fzs/s7852d/201609/37f11aacca5a49c2ad0984c8fc7a2873.shtml.

[23]中华人民共和国国家市场监督管理总局, 中国国家标准化管理委员会, 标准编号缺失. 健康信息学 数据交换标准 HL7临床文档架构(版本2): GB/T 42384-2023[S]. 北京: 中国标准出版社, 2023.

[24]中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. 健康信息学 推动个人健康信息跨国流动的数据保护指南: GB/T 25512-2010[S]. 北京: 中国标准出版社, 2010.

[25]大型人群队列研究数据安全技术规范 (T/CPMA002-2018)[J]. 中国预防医学杂志, 2019, 20(1): 12-16.

[26]中华人民共和国国家市场监督管理总局, 中国国家标准化管理委员会. 信息安全技术 健康医疗数据安全指南: GB/T 39725-2020[S]. 北京: 中国标准出版社, 2020.

[27]广东省卫生经济学会. 广东省健康医疗数据安全分类分级管理技术规范: T/GDWJ 013-2022[S/OL]. (2022-07-15)[2024-06-09]. https://www.renrendoc.com/paper/310579842.html.

[28]中华中医药学会. 中医真实世界数据采集操作规范[S/OL]. (2018-11-16)[2024-06-09]. https://www.cacm.org.cn/zhzyyxh/bzhsj/201811/54f094a6fc764087b633e258ea42 ea2e/files/411da00cd7e34fc0be56de779ac3f975.pdf. China Association of Chinese

[29]广州市标准化促进会, 广东省健康医疗大数据标准工作组. 广东省健康医疗数据脱敏技术规范: T/GZBC 36-2020[S/OL]. (2021-11-18)[2024-06-09]. https://www.gzbc.org.cn/?m=home&c=View&a=index&aid=106.

[30]谭婧, 彭晓霞, 舒啸尘, 等. 患者登记数据库构建技术规范[J]. 中国循证医学杂志, 2019, 19(7): 771-778.

[31]王雯, 高培, 吴晶, 等. 构建基于既有健康医疗数据的研究型数据库技术规范[J]. 中国循证医学杂志, 2019, 19(7): 763-770.

[32]中国中医药信息学会. 中医流派传承数据库建设指南: T/CIATCM 074-2020[S/OL]. (2020-10-15)[2024-06-09].https://www.ttbz.org.cn/Pdfs/Index/?ftype=st&pms=39353.

[33]浙江省卫生信息学会. 医疗健康大数据归档对象存储平台技术规范: T/ZJHIA 07-2023[S/OL]. (2023-05-08)[2025-05-06]. https://www.ttbz.org.cn/Pdfs/Index/?ftype=st&pms=81577.

[34]四川省卫生信息学会. 卫生健康数据质量控制规范 第1部分: 数据质量控制平台功能规范: T/TSHIA 7.1-2018[S/OL]. (2018-06-30)[2024-06-09].https://img.antpedia.com/standard/pdf/1/2212/T_SHIA%207.1%E2%80%942018.pdf.

[35]四川省卫生信息学会. 卫生健康数据质量控制规范 第2部分: 数据质量控制规则标准: T/TSHIA 7.2-2018[S/OL]. (2018-06-30)[2024-06-09]. https://www.renrendoc.com/paper/240078065.html.

[36]中国医院协会信息专业委员会. 医疗机构医疗大数据平台建设指南[M]. 北京: 电子工业出版社, 2019.

[37]大型人群队列研究数据处理技术规范 (T/CPMA001-2018)[J]. 中国预防医学杂志, 2019, 20(1): 7-11.

[38]广州市标准化促进会, 广东省健康医疗大数据标准工作组. 医疗数据中心建设规范 第 1 部分: 临床数据中心: T/GZBC 16.1-2019[S]. 北京: 中国标准出版社, 2019.

[39]广州市标准化促进会, 广东省健康医疗大数据标准工作组. 医疗数据中心建设规范 第3部分: 科研数据中心: T/GZBC 16.3-2020[S]. 北京: 中国标准出版社, 2020.

[40]中华中医药学会. 中医药真实世界研究技术规范 数据库构建和数据预处理[S/OL]. (2021-06-29)[2024-06-10]. https://www.cacm.org.cn/wp-content/uploads/2021/06/1-%E4%B8%AD%E5%8C%BB%E8%8D%AF%E7%9C%9F%E5%AE%9E%E4%B8%96%E7%95%8C%E7%A0%94%E7%A9%B6%E6%8A%80%E6%9C%AF%E8%A7%84%E8%8C%83-%E6%95%B0%E6%8D%AE%E5%BA%93%E6%9E%84%E5%BB%BA%E5%92%8C%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86-%E5%85%AC%E7%A4%BA%E7%A8%BF.pdf.

[41]Zhang C, Zhao M Y, Zhang W T, et al. Privacy-preserving identity-based data rights governance for blockchain-empowered human-centric metaverse communications[J]. IEEE J Sel Areas Commun, 2024, 42(4): 963-977.

[42]Malik V, Mittal R, Mavaluru D, et al. Building a secure platform for digital governance interoperability and data exchange using blockchain and deep learning-based frameworks[J]. IEEE Access, 2023, 11: 70110-70131.

[43]Mancini G B J, Lavoie A L, Leiter L A, et al. HSD32 using natural language processing (NLP) of unstructured EMR data to describe Canadian patients with familial hypercholesterolemia (FH) and their management[J]. Value Health, 2022, 25(S7): S485.

[44]Langmead B, Nellore A. Cloud computing for genomic data analysis and collaboration[J]. Nat Rev Genet, 2018, 19(4): 208-219.

[45]Shen D G, Wu G R, Suk H I. Deep learning in medical image analysis[J]. Annu Rev Biomed Eng, 2017, 19: 221-248.

[46]Steyaert S, Pizurica M, Nagaraj D, et al. Multimodal data fusion for cancer biomarker discovery with deep learning[J]. Nat Mach Intell, 2023, 5(4): 351-362.

Tags: 【协和医学杂志】我国医疗标准及规范中真实世界数据治理要求及技术要点  

搜索
网站分类
标签列表