谷歌 Gemini 突发试验版模型:重回竞技榜第一,新版 GPT-4o 只领先了 1 天

xxn 阅读:99329 2024-11-22 14:03:24 评论:0

谷歌和 OpenAI 再次交锋。

GPT-4o 在竞技榜上占据榜首仅一天Gemini-Exp-1121 试验版面世即夺冠

值得一提的是不久前发布的 Gemini-Exp-1114 版本。这似乎暗示谷歌看准 OpenAI 会出手,因而备有过硬手段。

计谋之一是引诱 OpenAI 推出新版 GPT-4o,再以更强模型予以反击。

谷歌研究团队颇感得意。

DeepMind 首席科学家 Jack Rae 称此为一场有趣的“后训练闪电战”,可明显感受到后续训练速度远超预训练。

DeepMind 研究副总裁 Oriol Vinyals 甚至向 OpenAI 发问:“最近还有新计划吗?”

氛围紧张,信心满满。

那么,Gemini-Exp-1121 究竟强在何处?让我们来看看其具体表现。

性能提升:代码 / 推理 / 视觉理解

官方表示,Gemni-Exp-1121 主要在三个领域有所突破。

  • 显著提升代码能力

  • 加强推理能力

  • 加强视觉理解能力

除风格控制外,其他方面已居榜首。

Gemini-Exp-1121 在视觉能力上有所提高。

在涉及风格控制的复杂提示词方面,Gemini-Exp-1121 与 o1-preview、New Sonnet 3.5 处于同等水平。

而在竞技场上的实际表现如何呢?

现在您也有机会亲自体验了。

例如,对同一幅漫画提问,Gemini-Exp-1121 和 GPT-4o-lastest-1120 给出各自理解。

Gemini-Exp-1121 回答更加详细全面,并采用了适当的强调和格式。

新版 GPT-4o 则较为简短与笼统。

在经典的动物过河逻辑推理题上,Gemini-Exp-1121 回答完全正确,而新版 GPT-4o 则出现错误,将第三次与第四次过河合二为一,导致答案不准确。

问题:如何让农夫带着狼、羊、白菜过河?规则:一次只能带一种物品;狼与羊不能单独相处,羊与白菜也不可单独相处。

另有新动向

值得关注的是,OpenAI 方面也传来新消息。

有报道指出 ChatGPT 最新测试版中首次出现了“实时摄像(Live Camera)”功能的代码。

功能涵盖实时录制、处理、语音模式及视觉识别能力。

这一能力已在高级语音模式发布时供用户体验。

这意味着 OpenAI 已经准备好上线该功能。

谷歌也展示了类似的演示,但尚未上线。按 OpenAI 的风格,很可能会率先发布该功能。

也许在明年,与 Chatbot 互动的主要方式将从文字转变为语音和 agent。Live Camera 可能是个开端,您觉得呢?

本文来自微信公众号:量子位(ID:QbitAI),作者:明敏,原标题《谷歌 Gemini 突发试验版模型,重回竞技榜第一!新版 GPT-4o 只领先了 1 天》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容