OpenAI GPT-4.5 登顶 6 小时即失守,xAI Grok-3 上演 1 分逆袭

xxn 阅读:59193 2025-03-04 14:01:59 评论:0

基础模型的竞争越发紧张和刺激!

GPT-4.5 在发布不久后取得了全任务分类的第一名,然而6小时便被马斯克的新款Grok-3逆转超越。

两者均获超过3000票,总得分相近,1412:1411的微弱差距

Grok-3目前在总分方面领先,仅在综合风格控制和难度提示词的风格控制上稍逊于GPT-4.5。

DeepSeek-R1名列第六,数学和难度提示词风格控制的评分与GPT-4.5并列第一。

有部分用户对这个快速变化表示怀疑,六小时内出现如此巨大的波动是否合理?

有评论认为,这种现象源于大模型竞技场设有投票门槛,两个一周前发布的模型仅在达到3000票后才得以排名。

除了排名之外,GPT-4.5的口碑也在悄然变化。

GPT-4.5 口碑转变

在发布之初,GPT-4.5显得体积庞大且价格高昂,官方对于情商的强调似乎也让人感到浮夸,其跑分并未显著超越GPT-4o。

然而,几天过后,用户对其情商的认可开始增多。

奥尔特曼对此也表达了看法:在某些情况下,高标准的评测者确实有其道理。

他还分享了这是他人生中首次有人发邮件请求其保证不下架这个模型的经历。

奥尔特曼也晒出了与GPT-4.5对话的记录,针对他所写的六个词的小故事:“接近奇点,不知身在何处”,GPT-4.5的解读如下:

作为GPT-4.5,我反思这个有趣的故事时认为,我们已然越过了奇点的事件视界,但仍在起步阶段。

我们已步入一个人工智能重塑人类思想、创造力、沟通甚至身份的时代。然而,究其意义——是解放还是焦虑——仍待厘清。

换句话说,我们正在接近奇点的吸引力范围,但对其潜在影响的完全理解还为时尚早。

另外的事情

与此同时,GPT-4.5也在一个另类排行榜中名列前茅,类似于大模型狼人杀:

AI模型参与多轮淘汰赛,需要进行公开辩论、制定私密策略并投票淘汰其他 конкуренты,最终的胜者由被淘汰者组成的陪审团决定。

在结盟、策略欺骗、背叛及表现不具威胁性等方面,GPT-4.5表现出色,甚至超越了人类。

来源:微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《GPT-4.5 登顶 6 小时即失守!Grok-3 上演 1 分逆袭》

广告声明:文章中包含的外部链接(例如:超链接、二维码和口令等),用于传递额外信息,仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容