Med-GO医学人工智能大模型的训练与评测

姓名: 张海涛、石腾

医院(或学校): 同济大学附属上海东方医院

论文类别: 医疗健康人工智能技术研发

科室: 急诊与重症医学、生物人工智能实验室

论文摘要: 【目的】 随着医疗资源分布不均和专家短缺问题日益突出,基于大规模语言模型(LLM)的医学人工智能有望提升诊疗质量和效率。本研究的目标是开发一个专业化的医学大模型——Med-GO,通过训练海量权威医学知识并强化疑难病例推理,支持临床多轮对话与决策,从而让更多患者受益。Med-GO旨在成为临床医生的智能助手,特别针对罕见复杂疾病诊治、检查检验流程和MDT(多学科讨论)等场景提供支持,推动先进医疗知识的普及。 【方法】 我们采用三阶段训练框架构建Med-GO模型,具体包括数据准备、预训练和微调三个部分。数据收集阶段汇集国内外600余本权威医学教材(如《哈里森内科学》)、最新临床指南、随机对照试验(RCT)论文、病例报告和专家共识等资料,覆盖常见病与疑难杂症的全流程诊疗知识。这一多源异构医学语料库涵盖诊断、检查、治疗等各环节,为模型构建深厚医学知识库奠定基础。预训练与微调:首先在上述海量医学文本上进行基础预训练,使模型获得通用医学语言理解能力。随后利用监督微调和LoRA(低秩适配)技术对模型进行领域适配。LoRA通过仅更新模型中低秩矩阵的方式进行细粒度调整,在保持预训练医学知识的同时,提高模型对医学问答和推理任务的适应性。重点强化长尾数据:在训练和数据增强过程中着重补充罕见病和复杂疾病的样本,解决医学数据分布中“长尾效应”问题。由于临床数据往往呈现头部少数常见病、多头长尾罕见病的极不平衡分布,我们通过过采样、合成病例和专家标注等策略提高罕见病例的比例,使模型在少见疾病诊断、稀有检测指标解读等任务上更具鲁棒性。多轮对话与推理训练:设计包含医学链式推理(CoT)和多学科讨论(MDT)的训练场景,使Med-GO能够模拟专家级诊疗思路,实现多轮对话中的逻辑推断和信息追踪。以上方法保障了Med-GO既具备丰富的医学知识背景,又强化了对复杂临床场景和长上下文推理的能力。 【结果】训练完成后,我们从多维度评估Med-GO的性能。学术测评:在多个国际通用医学知识和问答基准上,Med-GO均取得了优异成绩:MMLU-Med 85.67分、PubMedQA 80.04分、MedMCQA 74.72分、MedQA-USMLE 89.63分、MedBullets 80.19分、MedXpertQA 22.65分、MedQA 82.88分、AfriMedQA 78.16分、CME 89.97分、ExplainCPE 94.74分、MedEthicEval 92.53分等。这些数据证明了Med-GO在医学信息检索、诊疗建议和伦理评估等多类任务中的广泛适用性。综合对话评测:在OpenAI发布的HealthBench基准上,Med-GO表现出色。HealthBench包含了5000个由临床专家设计的真实医疗对话,多轮模拟患者与AI的交流,以权威评分标准评估模型在现实情景下的表现。我们的Med-GO在HealthBench总评分中获得58.8分,跻身国际顶尖模型行列(仅次于OpenAI的GPT O3模型);在难度更高的Hard子集上得分31.9分,已超过GPT O3,成为当前医学大模型的新SOTA水平。这表明Med-GO在长上下文的医学推理和多轮交互任务中具有领先优势。综合评测结果表明,Med-GO在医学知识问答和复杂推理任务上表现突出,具备与现有顶尖模型一较高下的实力。这进一步印证了其在医学信息处理领域的强大能力。 【结论】本研究开发的Med-GO模型代表了中国在医学人工智能领域的先进水平。严格的实验评估和实际部署结果表明,Med-GO不仅在各类医学考试和对话评测中表现优异,还具备广泛的临床应用潜力。例如,已有研究报道Med-GO已在上海东方医院、遵义第一人民医院等多家医院实现试点部署,说明该模型具备真实环境下的可行性与实用性。Med-GO丰富的医学知识库和专家级推理能力有望弥合地区间医疗服务的差距。凭借这些优势,Med-GO未来可以在诊断支持、辅助决策、远程会诊等场景中为临床医生提供智能化建议,提升基层和偏远地区的诊疗水平。