4o-mini 只有 8B、o1 也才 300B，微软论文意外曝光 GPT 核心机密

xxn 阅读：18382 2025-01-02 12:01:24 评论：0

微软最新披露OpenAI的机密？在论文中直言不讳写明：

o1-preview 约 300B 参数，GPT-4o 约 200B，GPT-4o-mini 约 8B……

英伟达2024年初发布B200时，当时公布GPT-4是1.8T MoE，即1800B，然而微软则给出更精确的数字，为1.76T。

此外，在论文中还列出了OpenAI的mini系列和Claude3.5 Sonnet的参数：

尽管论文中声明部分数据尚未公开，大部分数字仅为估算。

确切数据尚未公开，这里大部分数字是估计的。

然而，仍有人认为事情并非如此简单。

例如，为何没有公布谷歌Gemini模型的参数估计？也许他们对公布的数字仍有信心。

还有人指出，大多数模型都在英伟达GPU上运行，因此可以通过令牌生成速度来估算。

而谷歌模型是在TPU上运行的，导致无法准确估算。

此外，微软也不是第一次泄露这类信息。

2013年10月，微软在一份论文中“意外”透露了GPT-3.5-Turbo模型的20B参数，随后在论文版本更新中删除了这一信息。

是故意还是疏忽？

微软论文内容概述

实际上，原始论文介绍了一项与医学相关的基准测试——MEDEC。

该测试在12月26日发布，尽管研究面向特定领域，但可能会引起非相关方面人士的关注，直至新年才被网络社区发现。

该研究起源于美国医疗机构的调查，显示有五分之一的患者在阅读临床笔记时发现错误，并有40%的患者认为这些错误可能影响治疗。

另一方面，LLMs（大型语言模型）在医学文档任务中的应用越来越多（如生成诊疗方法）。

因此，MEDEC的任务有两个方面：识别和纠正临床笔记中的错误。

为了开展研究，MEDEC数据集涵盖3848个临床文本，其中包括来自三个美国医院系统的488份临床笔记，这些笔记以前没有被任何LLM看过。

数据集涵盖了诊断、管理、治疗、药物治疗和致病因素五种错误类型，这些错误类型是通过分析医学委员会考试中最常见的问题类型进行选择，而8名医疗人员参与了错误标记。

参数泄露出现在试验阶段。

根据实验设计，研究人员选择当前主流的大型模型和小型模型进行笔记识别和校正。

当介绍最终选定的模型时，模型的参数和发布时间立即被披露。

值得注意的是，绕过中间过程，该研究得出结论：Claude 3.5 Sonnet在错误标志检测方面优于其他LLM方法，得分为70.16，排名第二的是o1-mini。

每一次有关ChatGPT相关模型结构和参数泄露都引发轩然大波，这次亦然。

2013年10月，微软声称GPT-3.5-Turbo仅有20B参数时，社区惊叹：这就解释了OpenAI对开源模型的紧张程度。

2024年3月，当英伟达确认GPT-4为1.8T MoE，B200可以在90天内完成训练时，人们认为MoE已经成为并将继续成为大型模型结构的趋势。

根据微软估算的数据，网友们主要关注以下几个方面：

如果Claude 3.5 Sonnet确实比GPT-4o还小，那Anthropic团队将具有技术优势。

还有人表示难以置信GPT-4o-mini只有8B。

然而，之前有人根据推论成本进行计算，4o-mini的价格相当于3.5-turbo的40%，如果3.5-turbo的20B数据准确无误，那么4o-mini大约是8B左右。

然而，这里的8B指的是MoE模型的激活参数。

总之，OpenAI可能不会再公布具体数字。

之前，Altman在2024年新年愿望中，最终公布的清单中包括“开源”。然而，在2025年最新版本中，“开源”并未被保留。

论文链接：

本文来源自微信公众号：量子位（ID：QbitAI），作者：梦晨、一水，原标题《4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密》

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。