首页 > 医疗资讯/ 正文
尽管人工智能(AI)受到放射科医生的热烈欢迎,但事实证明,深度学习(DL)算法容易受到各种各样因素的影响。限制了进一步的临床应用。一个缺陷是缺乏通用性,在一家医院或环境的图像上训练的算法,在不同医院的图像上测试时性能会下降。第二个隐患是偏见,即一个算法在一组病人身上的表现比另一组更好,这可能会使预先存在的医疗保健差异永久化。这些隐患威胁着人工智能的安全和公平使用。
放射学中DL的最早应用之一是预测小儿骨龄,这是一项临床上重要但单调的任务。尽管作为2017年RSNA儿科骨龄挑战赛的一部分,开发了高性能的骨龄DL算法,获胜的算法与放射科医生相比实现了约4.3个月的平均绝对差异(MAD),但它们对不同外部人群的普遍性尚未得到评估。此外,骨龄算法的偏差也没有得到评估,这一点尤其重要,因为广泛使用的Greulich和Pyle骨龄标准最初是在20世纪30年代和40年代从同质的白人儿童群体中制定的,可能并不适用于其他种族或民族的儿童或当代人群。
近日,发表在Radiology杂志的一项研究以外部测试集与内部验证集的性能和不同人口群体之间的性能差异为标准,量化了骨龄DL模型的通用性和偏差,为该技术的进一步广泛应用铺平了道路。
本项研究使用2017年RSNA儿科骨龄挑战赛的获胜DL模型对来自美国两家医院的12611张儿科手部X光片进行了回顾性评估和训练。2021年9月至2021年12月,在内部验证集和外部测试集上对DL模型进行了测试,测试的对象是具有不同人口代表性的儿科手部X光片。报告真实骨龄的图像被纳入研究。计算了每一组的真实骨龄和模型预测骨龄之间的平均绝对差异(MAD)。通过使用t检验比较内部和外部评估集的MAD来评估其普适性。通过使用t检验或方差分析和χ2检验,分别比较人口统计学组之间的MAD和临床意义上的错误率(改变临床诊断的错误率)来评估偏差(统计学意义上的差异定义为P < .05)。
内部验证集有1425人的图像(773名男孩),外部测试集有1202人的图像(平均年龄,133个月±60[SD];614名男孩)。骨龄模型对外部测试集有很好的概括性,在MAD方面没有差异(验证集为6.8个月,外部集为6.9个月;P=0.64)。在外部测试集的1202张图像中,有194张(16%)的模型预测会导致临床上的重大错误。在内部验证集中,女孩的MAD大于男孩(P = .01),在外部测试集的年龄和Tanner阶段子类别中,MAD也大于男孩(两者的P < .001)。

图 数字手部图谱数据集中没有明显临床病史的健康儿童正面手部X光片的随机示例,这些例子在16Bit模型评估时存在临床上的重大错误,包括(A)33个月大的黑人男孩,深度学习(DL)模型平均绝对差异(MAD)为15个月,导致临床诊断为高级骨骼成熟度。(B) 201个月大的亚洲女孩,DL模型的MAD为24个月,结果临床诊断为骨骼成熟度延迟;(C) 189个月大的白人男孩,DL模型的MAD为60个月,结果临床诊断为骨骼成熟度正常;(D) 75个月大的西班牙裔女孩,DL模型MAD为15个月,结果临床诊断为骨骼成熟度正常
本项研究表明,在手部X光片上训练的深度学习(DL)小儿骨龄预测模型对不同的外部测试集有很好的概括性,但也表现出临床上明显的基于性别、年龄和性成熟度的偏差。本研究建议在临床上使用DL模型时要谨慎,特别是在没有评估偏差的情况下,并强调使用临床相关指标来评估DL模型的重要性。
原文出处:
Elham Beheshtian,Kristin Putman,Samantha M Santomartino,et al.Generalizability and Bias in a Deep Learning Pediatric Bone Age Prediction Model Using Hand Radiographs.DOI:10.1148/radiol.220505
猜你喜欢
- 喝茶除口臭 推荐几款药茶助你摆脱口臭窘境
- 山东省增加1例当地确诊 短暂性触碰会导致新冠病毒传播吗
- 医保定点医院三级专科医院试管婴儿">重庆安琪儿妇产医院医保定点医院三级专科医院试管婴儿
- 5种瘦脸食物 助你轻松吃出V形脸
- ASJ:臀肌筋膜下/肌内双平面假体置入联合脂肪移植:一种隆臀新技术
- Cell子刊:浙江大学王福俤团队等开发铁死终结者,靶向铁死亡,治疗脂肪肝!
- 为什么吸油纸会变透明 吸油纸什么牌子好用
- 运动后肌肉酸痛怎么办 这样做可缓解肌肉酸痛
- Arthritis Res Ther:生物类似药DRL_RI在类风湿关节炎患者中的免疫原性与安全性评估
- Circulation 浙江大学医学院附属口腔医院段胜仲团队揭示牙周炎加重心肌梗死的致病新机制
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)