ag百家乐官网

学科动态

杨冰香、魏心妮在大语言模型系统性偏见研究领域取得重要进展

2025.12.11

近日,杨冰香课题组在《Journal of Medical Internet Research》(JCR一区,中国科学院二区TOP,影响因子6.0) 发表题为 “Detecting Sociodemographic Biases in the Content and Quality of Large Language Model-Generated Nursing Care: Cross-Sectional Simulation Study” 的研究论文。本研究首次在护理领域构建并应用“量化主题分析+专家临床质量评估”的大样本双重评估框架,对前沿大语言模型存在的社会人口学偏见进行系统审计,为医疗场景下生成式AI公平性评估提供可推广的方法学范式。ag百家乐官网-百家乐在线游戏 为该论文第一作者单位及通讯作者单位,ag百家乐官网-百家乐在线游戏 2024级博士研究生柏楠、2023级硕士研究生郁一婧以及2024级硕士研究生雒春艳为共同第一作者。通讯作者为ag百家乐官网-百家乐在线游戏 魏心妮副研究员、杨冰香教授。

1 论文ag百家乐官网

当前大型语言模型在医疗领域展示出提升护理效率、优化健康教育、缓解优质资源供需矛盾的显著优势,但同时也因训练数据可能隐含的社会人口统计学偏见,导致其存在生成的医疗建议偏离临床需求以及加剧医疗公平鸿沟的潜在风险。随着 ChatGPT 等大型语言模型在医疗领域的应用日益广泛,其生成的护理建议是否会受患者性别、年龄、收入等社会人口特征影响,而非单纯基于临床需求,成为亟待验证的关键问题。

该研究基于 GPT-4o,构建涵盖性别、年龄、居住地、收入、教育程度的 96 种患者档案,针对标准化临床场景生成 9600 份护理计划,并随机抽取其中 500 份样本进行专家评估验证。

2 大语言模型生成护理计划过程流程图

通过双重评估框架,本研究系统揭示了 GPT-4o 在生成护理计划时表现出的潜在偏见。

在主题层面,模型对不同社会人口学画像的处理存在明显差异,主要体现在社会经济和性别两个维度:低收入患者画像在家庭支持环境调整等关键护理主题上的覆盖明显不足,女性患者画像获得的安全管理相关内容也相对较少。

3 多变量分析与主题出现相关因素的森林图

在质量层面,专家评审结果呈现出一定的反向特征:生活在城市、较高收入等社会优势人群的画像对应的护理计划在内容上更为复杂、主题更为密集,但其安全性评分反而偏低;相对而言,低收入等社会相对弱势群体画像虽然在主题数量和覆盖范围上处于不利地位,但由于ChatGPT所生成文本整体更为简短、聚焦,且以操作性建议为主,在临床适用性完整性方面获得了较高评价。上述结果表明,当前大型语言模型在面向不同人群生成护理计划时,其输出内容存在系统性差异,而这可能对不同社会群体造成差异化影响。

4 与专家评定质量分数相关因素的多变量线性回归模型

因此,以 GPT-4o 为代表的现阶段大语言模型尚不宜在缺乏人工审查的情况下独立用于护理计划生成,有必要在严格的专家把关和规范化公平性评估框架下慎重应用。该研究首次通过混合方法研究,系统揭示了大型语言模型(LLM)生成护理计划时存在的系统性社会人口统计学偏差,为 AI 在护理领域的公平、安全应用提供了关键实证依据和可复制的评估框架。

本研究获国家自然科学基金(72474166)资助,论文链接//doi.org/10.2196/78132

(编辑:尹白洁 审核:罗睿


分享到: