OpenAI o1-preview 在复杂医疗病例诊断中超越医生，研究显示其优越性

2天前 13 大屏时代

2024年12月25日，AIbase基地报道 —— 一项由哈佛医学院与斯坦福大学联合进行的最新研究表明，OpenAI 的 o1-preview 人工智能系统在诊断复杂医疗病例方面，可能优于人类医生。研究显示，o1-preview 在多个医疗测试中表现出色，其诊断准确率远超人类医生，尤其在复杂病例的推理和决策方面。

o1-preview 超越医生：诊断准确率显著提高

这项研究的重点是 o1-preview 系统在复杂医疗场景中的表现。研究团队对该系统进行了全面的医疗诊断测试，结果显示，o1-preview 的正确诊断率达到了78.3%。在对70个具体病例的直接对比中，这一AI系统的准确诊断率更是高达88.6%，远远超过了其前身 GPT-4 的72.9%准确率。

在进行医疗推理测试时，o1-preview 同样表现突出。使用 R-IDEA 量表（该标准广泛用于医疗推理质量的评估），o1-preview 在80个病例中的表现令人印象深刻——其得分中有78个达到了满分，而经验丰富的医生仅在28个病例中获得满分，医学住院医师更仅在16个病例中表现如此。这一结果不仅表明 o1-preview 在复杂推理方面的优势，也表明了该系统能够处理医生难以解决的高难度医学问题。

突破性的表现：在复杂病例中超越传统工具

尤其值得一提的是，o1-preview 在处理由25名医学专家特别设计的复杂管理案例时展现出惊人的能力。在这些通常让人类医生感到困惑的病例面前，o1-preview 凭借其出色的推理能力获得了86%的得分，而医生使用 GPT-4 的得分仅为41%，传统医学工具的得分更是只有34%。

亚当·罗德曼博士，研究的主要作者之一，表示：“人类医生在这些复杂病例面前显得力不从心，而 o1-preview 的表现无疑令人震惊。这一研究表明，在某些医疗任务中，AI的表现远超人类。”

AI的不足与挑战

尽管 o1-preview 在多个领域表现突出，但研究人员也发现该系统存在一定的局限性。例如，o1-preview 在概率评估任务中的表现没有显著提升，特别是在一些需要估计概率的场景中，系统给出的结果往往偏高，如在评估肺炎的发生概率时，o1-preview 估计为70%，远高于科学界公认的25%-42%的范围。

研究团队指出，o1-preview 在一些需要批判性思维的任务上表现优异，但在更抽象的挑战中，尤其是涉及概率评估的场景，仍然表现不尽人意。这一现象可能反映了AI在某些类型的推理任务中尚需进一步提升。

成本问题与实际应用挑战

虽然 o1-preview 在诊断准确性和推理质量方面超越了传统工具，但它的实际应用仍然面临挑战。研究指出，o1-preview 提供的诊断建议通常涉及昂贵的检测和程序，这些可能在实际医疗中难以广泛应用。一些批评者认为，尽管该AI系统在理论上表现出色，但其提出的诊断测试往往不切实际，尤其在成本方面可能成为医疗系统的负担。

此外，研究仅评估了 o1-preview 在单独工作的情况下的表现，未对其与医生合作时的效果进行详细分析。虽然 o1-preview 的能力令人印象深刻，但许多专家认为，AI与医生的合作将是未来医疗领域最为理想的应用方式。