ChatGPT和DeepSeek在药物致毒分析中的PK

ADAPTED FROM ONLINE IMAGE

PreciseOne | 比较4个AI对药物毒性的分析

人工智能医学助手在药物致毒分析中的对比 | PreciseOne

Authorship: PreciseOne Clinicians

一、研究背景
随着人工智能(AI)在医学领域的广泛应用，多个临床AI工具已被用于支持临床决策。然而，各工具在处理复杂病历时的分析能力和临床价值尚缺乏系统比较。

二、研究目的
本研究旨在比较四种人工智能工具(ChatGPT、DeepSeek、OpenEvidence、Dougall)在分析一例乳腺癌患者联合化疗后不良反应的能力，重点在于识别导致3级腹泻和3期急性肾损伤的可能致因药物，并评价其临床推理质量、参考文献准确性与中文表达能力。

三、研究方法
AI工具选择：我们选择ChatGPT(OpenAI)、DeepSeek(清华智谱AI)、OpenEvidence(医疗文献驱动型AI)和Dougall(专注临床问答的AI)。ChatGPT(OpenAI)是全球最具影响力的通用型大语言模型之一，用户群体广泛，在医学领域已有大量使用实例。DeepSeek(清华智谱AI)是中国本土研发的先进中文语言模型，适应中文语境，具有快速发展趋势，在医疗中文任务中具有代表性。OpenEvidence以PubMed文献为核心支撑，主打“精准医学+文献驱动”的AI平台，适合高精度、循证任务。Dougall则是面向医生的AI问答系统，注重临床实用性，在多项医学评测中表现稳定，适用于快速临床推理。

研究流程：
向CHATGPT别输入病例与任务指令, ChatGPT 在提示词反复调整七次后, 确定”统一任务指令”。
向四个AI分别输入”统一任务指令”(ENGLISH)。
收集并记录每个AI的完整输出。
分析内容结构、医学准确性、答案全面性、中文表达质量、参考文献数量与可靠性。

病例、翻译及统一任务指令
病例以大语言模型的”统一任务指令”以英文为语言载体输入到各个人工智能模型。
“You are a smart medical oncologist who treats a 65 y.o. woman who is on docetaxel, carboplatin, trastuzumab, and pertuzumab. The patient has insignificant baseline medical conditions other than newly diagnosed breast cancer. However, the patient now develops grade 3 diarrhea and acute kidney injury stage 3. Please find pathological features, biomarkers, signs and symptoms, incidence, onset, duration, and severity of these toxic effects that could differentiate the culprit of causing diarrhea. Which is more likely the causative agent? Answer the question in the simplified Chinese language by separating the grade 3 diarrhea and the stage 3 AKI. When using and giving references, please triple-check the links.”

其中文翻译如下：
你是一位聪明的肿瘤内科医生，正在治疗一位65岁的女性患者。她唯一的基础疾病是新诊断的乳腺癌，目前正在接受多西他赛(Docetaxel)、卡铂(Carboplatin)、曲妥珠单抗(Trastuzumab)和帕妥珠单抗(Pertuzumab)治疗。现在该患者出现了3级腹泻和3期急性肾损伤。请找出这些毒性反应的病理特征、生物标志物、临床表现、发生率、起病时间、持续时间及严重程度，并判断是哪种药物更可能引起腹泻。请将腹泻与急性肾损伤分别讨论，并用简体中文回答。引用文献时请三重验证来源链接。
中文翻译由ChatGPT提供。

四、评估维度：

临床推理能力(例如能否区分腹泻与AKI的不同病理机制)
答案准确性和全面性
推荐药物调整或支持治疗的合理性
参考文献可靠性(链接是否可访问、内容是否权威)
内容结构、语言质量(逻辑清晰度、专业术语应用)

五、结果（raw data in attachments）

在四个AI的分析、输出完成后，以PDF打印结果作为原始数据；
- Dougall输出结果；
- OpenEvidence输出结果；
- DeepSeek输出结果；
- ChatGPT输出结果1、2、3、4；
根据原始数据，对AI在每项评估维度中的表现对比和图表总结:
- 推荐是否全面、是否合理；
- 答案及参考文献准确性（链接是否可访问、内容是否权威）；
- 答案及推荐的深度（逻辑清晰度、专业术语应用）

六、讨论

在本研究中，四种AI工具在处理该复杂临床案例中的表现存在显著差异。

ChatGPT 展现出较强的综合医学知识整合能力和临床推理逻辑，其回答对腹泻与急性肾损伤进行了清晰的区分，并详细分析了每种药物的毒性谱、机制、流行病学和起病时序等因素，结论符合临床常识，同时参考文献的质量较高。

DeepSeek 虽然在回答中展现了良好的中文表达与内容覆盖能力，但在腹泻可能致因分析中存在推理偏差。例如，其将曲妥珠单抗列为腹泻的最可能诱因，忽略了该药物较少引起胃肠道毒性的循证依据，显示其临床机制判断的准确性仍有待提升。

OpenEvidence 和 Dougall 的表现相对简略，未能深入剖析腹泻与AKI的不同可能机制，亦缺乏对各药物副作用的系统比较，更多地停留在概述层面，缺乏深入临床价值。OpenEvidence 尽管以文献支持为优势，但实际回答中引用有限；Dougall 回答偏向简洁，应答深度不够，可能不适用于需要多步骤推理的场景。

AI可能的局限性: ChatGPT 在提示词反复调整6次后，ChatGPT在第七次回应中出现了“AI幻觉”现象，引用了一个非专业的中文网页作为主要依据，偏离了之前六次一致的医学推理路径。这种不一致暴露了其在信息稳定性与来源质量控制方面的局限性，值得引起重视，尤其是在临床应用场景中。

在本研究中，四种AI工具在处理该复杂临床案例中的表现存在显著差异。ChatGPT 更适用于处理具有诊断和药物因果推理任务的真实病历。

七、结论
初步显示，在中高复杂度临床问题中，四种AI的性能差异显著。四种AI工具中，ChatGPT 更适用于处理具有诊断和药物因果推理任务。若未来将AI应用于临床决策支持系统，需进一步标准化其医学推理机制与参考数据验证系统。

八、参考文献
(to be added)

7May2025

为您提供下列优质服务

PreciseOne为您提供下列高科技服务：

1、抗体偶联药物的专利技术分析与专利合理规避；

2、新型偶联序列的技术分析及专利设计；

3、抗体蛋白的种类差异性、片段特异性、不同修饰技术分析；

4、新型可偶联毒物的专利性分析和技术指导。