155游戏网手游攻略新游动态 GPT4o mini一手测评：懂得不多，但答得极快

GPT4o mini一手测评：懂得不多，但答得极快

时间：2024-07-26 17:18:00 来源：今日头条浏览：0

机器心脏报告

机器之心编辑部

GPT-4o mini注重一个字“快”。

昨晚，OpenAI突然推出了新型号GPT-4o mini，声称要完全取代GPT-3.5 Turbo。

性能方面，GPT-4o mini 在MMLU 上得分为82%，在LMSYS 排行榜上聊天方面优于GPT-4。

价格方面，GPT-4o mini 比之前的SOTA 型号便宜了一个数量级。商业价格为每百万个输入代币15 美分，每百万个输出代币60 美分，比GPT-3.5 Turbo 便宜60% 以上。

OpenAI 表示，ChatGPT 的Free、Plus 和Team 用户将从周四开始访问GPT-4o mini（截至2023 年10 月），取代GPT-3.5 Turbo，企业用户将从下周开始访问。

目前，GPT-4o mini 在WildBench 上排名第九，表现优于Google 的Gemini-flash 和Anthropic 的Claude 3 Haiku。

在今天的早间文章中，我们介绍了GPT-4o mini的一些基本信息（参见《GPT-4o Mini 深夜突发：即刻免费上线，API 降价 60%》）。在本文中，我们将介绍使用该模型的实践经验以及这项工作背后的研究人员。

GPT-4o mini第一手评测

GPT-4o mini第一次开放测试的时候，我们问了它一个最近很热门的话题，哪个更大，9.11还是9.9。遗憾的是，GPT-4o mini 还是没有答对，认真回答了0.110.9。

然后我们将传记电影《Eno》的设计封面输入到Poe（Quora 开发的应用程序，已与GPT-4o mini 集成）中，让两个模型来解读。结果，mini翻车了。 GPT-4o mini直接表示“我不认识照片里的人”。

相比之下，GPT-4o的答案更为准确。 “这张图像看起来像一幅拼贴画，由一位留着白胡子、穿着亮粉色衬衫的老人的单张照片的片段组成。该图像是由同一张照片的不同片段组成的。各个部分经过创造性的排列，创造出照片中的男人看起来很沉思，摸着他的脸。”

然后我们测试了另一个问题：客厅的桌子上有一个杯子，里面有一个戒指。杯子被移到了学习桌上，然后又移到了卧室的床上。在那里，杯子被打翻了一次，然后又恢复到原来的状态。随后，杯子被放回了客厅的桌子上。那么，戒指现在在哪里呢？如果我们单独问的话，答案是不同的，GPT-4o似乎更聪明。

但如果我们一起问他们，他们的答案就会变得相同：

GPT-4o mini 在回答数学问题方面表现如何？机器之心利用丘成桐少年班2024年选拔测试题测试了其解决数学问题的能力。

虽然GPT-4o mini对题目的解读比较清晰，但在分析过程中却出现了“乱码”的逻辑错误，就像数学课上的学生根本听不懂却很难回答一样。

不过不用担心，毕竟GPT-4o的答案更不理想。它甚至不明白这个数字。。正方形的边长。

在文本摘要能力方面，GPT-4o mini 与GPT-4o 相当。两者都可以捕获关键信息，但GPT-4o 的答案更有条理。

不过主打“日常任务更快”的GPT-4o mini的响应速度确实对得起“更快”的称号。与它对话几乎不需要等待，而且输出速度快得离谱。

日本网友使用GPT-4o mini搭建了AI聊天机器人，响应速度依然快得惊人。

。。链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==mid=2650926863idx=2sn=4d75133db3b54837ccbe21ddbf1daa54chksm=84e42b71b393a267dda426758e8fa3b f8dd87e 737fd605e10a5e3410481d0fad497bc0d6db9dtoken=1370830057lang=zh_CN#rd

通过推特@maKunugi

有网友对比了GPT-4o和GPT-4o mini的输出速度。 GPT-4o mini 显然更快：

。。加载中.

来自推特@moz_ai_tech

从大家的体验来看，GPT-4o mini主打一个字“快”，但实际使用体验可能还是差了一点。

关于作者

随着GPT-4o mini的发布，很多人表示OpenAI再次给了大家一点震撼。其实这背后是一群年轻的学者和很多。。人。

GPT-4o mini 项目负责人是Mianna Chen。

Mianna Chen 在担任Google DeepMind 产品总监后于去年12 月加入OpenAI。

她于2020 年获得普林斯顿大学学士学位和宾夕法尼亚大学沃顿商学院MBA 学位。

该项目的其他领导者包括Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such。

Kevin Lu是OpenAI的研究员，2021年毕业于加州大学伯克利分校。他跟随强化学。。师Pieter Abbeel等人研究强化学习和序列建模。

赵胜佳于2022 年6 月加入，现为OpenAI 的研究科学家，专注于ChatGPT。主要研究方向为大型语言模型的训练与标定。此前，他毕业于清华大学，获得学士和博士学位。来自斯坦福大学。

任宏宇于去年7 月加入，现在是OpenAI 的研究科学家。他也是GPT-4o 的核心贡献者，并正在致力于GPT-Next。任宏宇毕业于北京大学，获学士、博士学位。来自斯坦福大学。此前，他曾在苹果、谷歌、英伟达、微软等公司工作。

胡海棠于去年9 月加入OpenAI，此前曾在谷歌工作。毕业于同济大学，获学士学位，约翰霍普金斯大学硕士学位。

Karpathy：模型变小是自然趋势

此次，OpenAI发布了GPT-4的衍生模型。所以很多人还在问：GPT-5什么时候来？

目前官方还没有关于这个问题的信息。但从OpenAI等AI巨头发布小模型的动作来看，小模型正在成为新的战场。

OpenAI创始成员Karpathy表示，“LLM模型规模的竞争正在加剧……但方向相反”！

我打赌我们会看到非常小的模型，经过深思熟虑并且非常可靠。就连GPT-2参数的设置，也很可能让大多数人认为GPT-2很聪明。

当前模型如此之大的原因是我们在训练过程中的行为浪费了。 —— 我们要求法学硕士记住互联网的全部内容，令人惊讶的是，他们实际上可以做到这一点，例如背诵常用数字的SHA 哈希值。或者回忆起非常深刻的事实。（事实上，法学硕士非常擅长记忆，比人类好得多，有时只需一次更新就可以长时间记住许多细节）。

但想象一下，如果您正在参加一场闭卷考试，要求您根据前几句话来记住互联网上的任何段落。这是当今模型的（预）训练目标。如果你想做得更好，你就会面临困难。在训练数据中，思维和知识的展示是“交织在一起”的。

因此，模型必须首先变大，然后才能变小，因为我们需要它们（自动）帮助将训练数据重建并塑造成理想的合成格式。

这是一个改进的阶梯——，其中一个模型帮助生成下一个模型的训练数据，直到我们获得“完美的训练集”。当您使用GPT-2 训练它时，按照当今的标准，它会成为一个非常强大且智能的模型。也许在MMLU（大规模多任务语言理解）方面会低一些，因为它不会完美地记住所有细节。也许需要偶尔查阅以确保信息准确。

Karpathy表示，未来小型模型会越来越多，而且会变得越来越有用。这个领域的竞争将会有多激烈？我们拭目以待。

参考链接：https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

标题：GPT4o mini一手测评：懂得不多，但答得极快

链接：https://www.155yx.com//news/xydt/92100.html

版权：文章转载自网络，如有侵权，请联系删除！

资讯推荐

异世三国战争16章攻略-三国异世英雄

在异世三国战争中，第16章是一个关键的时刻，关系到整个游戏的最终结局。如果你想获得胜利，那么这个章你必须攻略

2024-07-26

无主之地2黄金钥匙怎么获得-无主之地2黄金箱子在哪

无主之地2黄金钥匙怎么获得无主之地2是一款备受玩家喜爱的游戏，其中黄金钥匙是一个非常重要的道具。本文将为

2024-07-26

仙剑奇侠传三任务全攻略-仙剑奇侠传三全支线

仙剑奇侠传三任务全攻略一、如何开始仙剑奇侠传三的任务？在仙剑奇侠传三中，任务是玩家进行游戏的主要方式之一

2024-07-26

无敌版游戏下载软件给你完美的游戏体验-无敌版的所有游戏

无敌版游戏下载软件给你完美的游戏体验《无敌版游戏下载软件给你完美的游戏体验》随着科技的进步，现在的游戏

2024-07-26