首页 > 医疗资讯/ 正文
像 OpenAI 的ChatGPT这类大型语言模型(LLMs)自 2022 年受到广泛关注以来,极大地改变了文本生成方式。基于 Transformer 架构,并通过对海量(通常未公开数量)的文本进行训练,大型语言模型(LLMs)无需大量示例(即少样本学习与提示,或零样本学习与提示)就能生成可信的文本输出。大型语言模型(LLMs)已经在医疗场景中进行了广泛测试,包括将自由文本的放射学报告转换为标准化报告模板,以及对肺癌自由文本的计算机断层扫描(CT)报告进行数据挖掘等。其在以放射学委员会考试风格的文本问题回答中所展现出的内在 “知识” 也得到了证实,并且最近还显示出大型语言模型(LLMs)有助于简化放射学报告。
近期,具备视觉功能的 GPT-4(即 GPT-4V,由 OpenAI 推出)问世,它能够处理图像输入。像这样的大型视觉-语言模型可能会使我们更接近基础模型,可用于各种各样不同的任务。
一项定性评估报告指出,GPT-4V 在依据单张医学图像生成放射学报告方面表现出有前景的性能,但也凸显了该模型目前存在的局限性。“红队” 专家(即负责测试系统漏洞的专业人员)也报告了其在解读放射学图像时存在不一致的情况。然而,这类广泛可用的模型不可避免地会被误用于非预期的应用场景,绕过安全防护措施。鉴于其涉及的潜力和风险,对这些模型进行全面分析至关重要,但关于 GPT-4V 的经同行评审的文献仍然匮乏。在对超声图像分析的定性研究中以及将 GPT-4V 与无视觉能力的大型语言模型(LLMs)在医学病例挑战中进行对比时,有报告称其表现出良好性能。但也有其他作者认为该模型不适合用于医学图像解读,例如,有报告称该模型的表现不如商业胸部 X 光片解读软件。大多数作者仅纳入了数量有限的公开可用图像,且未设置阴性对照,这限制了对模型性能的评估。而且,公开数据可能已被包含在 GPT-4V 的训练中,这可能会使其结果偏向更好的表现。其他相关研究工作尚未经过同行评审,也存在类似的局限性。目前仍缺乏在未见过的数据上对 GPT-4V 和人类读者的表现进行定量比较分析。

最近,发表在Radiology 上的一篇文章通过数据定量评估了 GPT-4V 在解读放射学图像方面的性能。
本项回顾性研究纳入了来自神经放射学、心胸放射学以及肌肉骨骼放射学(计算机断层扫描(CT)、磁共振成像(MRI)、X 线摄影)中具有代表性的单个异常图像和健康对照图像,于 2024年2月至3月期间通过应用程序编程接口利用GPT-4V生成报告。使用准确率、敏感度和特异度来评估自由文本报告的事实正确性以及在二分类任务中检测异常的性能。将二分类任务的性能与一名正在接受培训的一年级非放射科医生以及四名获得委员会认证的放射科医生进行对比。
共纳入 470 名患者的 515 张图像(中位年龄为 61 岁 [四分位距为 44 - 71 岁];男性 267 名),其中 345 张图像为异常图像。GPT-4V 对图像相关信息的识别情况:GPT-4V 能在 100%(515 张中的 515 张)的图像中正确识别成像方式,在 99.2%(515 张中的 511 张)的图像中正确识别解剖区域。在自由文本报告中,诊断准确率在气胸(计算机断层扫描(CT)和 X 线摄影)方面为 0%(33 张图像中的 0 张)到脑肿瘤(磁共振成像(MRI))方面的 90%(50 张图像中的 45 张)之间。在二分类任务中,GPT-4V 的敏感度在缺血性卒中方面为 56%(25 张图像中的 14 张)到脑出血方面的 100%(25 张图像中的 25 张)之间,特异度在脑出血方面为 8%(25 张图像中的 2 张)到气胸方面的 52%(25 张图像中的 13 张)之间,而人类读者在所有任务中的汇总敏感度为 97.2%(1135 张图像中的 1103 张),汇总特异度为 97.2%(1115 张图像中的 1084 张)。该模型明显存在过度诊断异常的倾向,在自由文本报告和二分类任务中的假阳性率分别为 86.5%(170 张图像中的 147 张)和 67.7%(223 张图像中的 151 张)。

表 二值分类任务的性能
本项研究表明,GPT-4V 的初始版本能够识别医学图像内容,并可靠地从单张图像中确定成像方式和解剖区域。然而,在图像解读方面,GPT-4V 未能有效地检测、分类或排除异常情况。
原文出处:
Quirin D Strotzer,Felix Nieberle,Laura S Kupke,et al.Toward Foundation Models in Radiology? Quantitative Assessment of GPT-4V's Multimodal and Multianatomic Region Capabilities.DOI:10.1148/radiol.240955
猜你喜欢
- 小米肉丸子的做法-家常味蒸菜谱
- blood综述:免疫豁免部位的原发性大B细胞淋巴瘤
- 坐骨神经痛的相关解剖、症状、分型及 13 个牵拉试验
- IJCOPD:血清GABA、NE、ET-1、VEGF对慢性阻塞性肺疾病合并肺动脉高压的临床诊断价值
- 广西人民医院数字化医用X射线摄影系统谈判公告
- 菜花木耳炒腊肉的做法-家常味烧菜谱
- Radiology:结合AI病灶检测和乳腺钼靶纹理分析实现乳腺癌的风险评估
- J Orthop Surg Res:髋臼软骨损伤治疗进展,微骨折术、自体软骨细胞移植(ACT)与自体基质诱导软骨生成术(AMIC)的应用与比较
- 在平日中经常跳绳锻炼对身体的好处
- 女生内裤变黄的原因和解决办法
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐高血压、透析、三发性甲亢不得不手术的情况,麻醉处理病例分享
- 荐【肝癌防控实录】核苷长期治疗仍进展为代偿期肝硬化的慢乙肝患者加用聚乙二醇干扰素α治疗获HBsAg血清学转换,肝组织学显著改善
- 荐基因检测无靶点,免疫治疗却带来奇迹:81岁食管黑色素瘤患者单周期免疫治疗后长期完全缓解
- 荐31岁1级毛细胞星形细胞瘤检出新型ASAP1::BRAF融合,术后复发时或可用MAPK通路抑制剂
- 荐局部晚期难治性鼻腔鳞癌血液NGS检出PTCH1突变和TMB-H,获益免疫联合维莫德吉,经3年积极治疗影像学达到完全缓解
- 荐29岁男性竟有子宫、输卵管和卵巢?首例发生于性腺发育不全的畸胎癌肉瘤,检出PIK3CA突变或为铂耐药后续潜在治疗靶点
- 荐63岁男性DNA甲基化分析提示可能为神经母细胞瘤,影像学和实验室检查进一步确诊,NGS检出潜在治疗靶点
- 荐970例脑膜瘤大样本解读:CDKN2A/B半合子缺失需细分亚型,若整条染色体9p或累及周边基因的大片段缺失,预示更高基因组不稳定和更差预后
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)