微软论文再曝OpenAI模型参数，医疗AI评测意外暴露4o-mini只有8B参数

2025-01-02 14:34:39 947 大屏时代

在一篇聚焦医疗AI评测的研究论文中，微软似乎再次“意外”披露了多个顶级大语言模型的参数规模。这篇论文发布于12月26日，不仅揭示了包括OpenAI、Anthropic等公司的模型参数信息，还引发了业内对大模型架构和技术实力的广泛讨论。

OpenAI的模型参数论文中提到，OpenAI的o1-preview模型约有300B参数，而GPT-4o模型的参数约为200B，令人震惊的是，GPT-4o-mini仅有8B参数。这与此前英伟达公布的GPT-4采用1.76T MoE架构的说法相差甚远。这一参数规模差异引发了对OpenAI技术路线和架构的讨论，尤其是GPT-4o-mini的参数如此小，似乎与其强大的应用能力有所矛盾。
其他公司模型参数Claude 3.5 Sonnet：论文还透露，Claude3.5Sonnet的参数约为175B，让人关注的是，它在医疗文档错误检测测试中表现突出。模型参数规模的“泄露”：这不是微软第一次在论文中“泄露”大语言模型的参数信息。去年10月，微软曾披露GPT-3.5-Turbo拥有20B参数，但后来在更新版本中删除了这些信息。这种“泄露”现象让业内人士产生了是否有意为之的猜测。
MEDEC医疗领域基准测试论文的核心内容是介绍一个名为MEDEC的医疗领域基准测试。研究团队通过分析三家美国医院的488份临床笔记，评估了不同AI模型在识别和纠正医疗文档错误方面的能力。Claude 3.5 Sonnet在错误检测方面表现优异，以70.16的得分领先其他模型。这一结果引发了对于模型技术的更多讨论。

技术实力的体现：有专家指出，如果Claude 3.5 Sonnet能够在较小参数的情况下实现如此优异的性能，说明Anthropic的技术实力值得关注，尤其是在模型优化和算法方面的潜力。
参数估算与模型定价：部分分析师通过模型的定价来反推参数规模，认为部分参数估计是合理的，但也有不同声音质疑数据的真实性。
谷歌Gemini缺席：值得注意的是，论文并未提及谷歌Gemini的参数规模。有分析认为，这可能与Gemini使用TPU而非英伟达GPU相关，导致无法通过token生成速度进行准确估算，从而没有公开相关数据。