155游戏网 手游攻略 新游动态 GPT4o mini一手测评:懂得不多,但答得极快

GPT4o mini一手测评:懂得不多,但答得极快

时间:2024-07-26 17:18:00 来源:今日头条 浏览:0

机器心脏报告

机器之心编辑部

GPT-4o mini注重一个字“快”。

GPT4o mini一手测评:懂得不多,但答得极快

昨晚,OpenAI突然推出了新型号GPT-4o mini,声称要完全取代GPT-3.5 Turbo。

性能方面,GPT-4o mini 在MMLU 上得分为82%,在LMSYS 排行榜上聊天方面优于GPT-4。

价格方面,GPT-4o mini 比之前的SOTA 型号便宜了一个数量级。商业价格为每百万个输入代币15 美分,每百万个输出代币60 美分,比GPT-3.5 Turbo 便宜60% 以上。

OpenAI 表示,ChatGPT 的Free、Plus 和Team 用户将从周四开始访问GPT-4o mini(截至2023 年10 月),取代GPT-3.5 Turbo,企业用户将从下周开始访问。

目前,GPT-4o mini 在WildBench 上排名第九,表现优于Google 的Gemini-flash 和Anthropic 的Claude 3 Haiku。

在今天的早间文章中,我们介绍了GPT-4o mini的一些基本信息(参见《GPT-4o Mini 深夜突发:即刻免费上线,API 降价 60%》)。在本文中,我们将介绍使用该模型的实践经验以及这项工作背后的研究人员。

GPT-4o mini第一手评测

GPT-4o mini第一次开放测试的时候,我们问了它一个最近很热门的话题,哪个更大,9.11还是9.9。遗憾的是,GPT-4o mini 还是没有答对,认真回答了0.110.9。

然后我们将传记电影《Eno》 的设计封面输入到Poe(Quora 开发的应用程序,已与GPT-4o mini 集成)中,让两个模型来解读。结果,mini翻车了。 GPT-4o mini直接表示“我不认识照片里的人”。

相比之下,GPT-4o的答案更为准确。 “这张图像看起来像一幅拼贴画,由一位留着白胡子、穿着亮粉色衬衫的老人的单张照片的片段组成。该图像是由同一张照片的不同片段组成的。各个部分经过创造性的排列,创造出照片中的男人看起来很沉思,摸着他的脸。”

然后我们测试了另一个问题:客厅的桌子上有一个杯子,里面有一个戒指。杯子被移到了学习桌上,然后又移到了卧室的床上。在那里,杯子被打翻了一次,然后又恢复到原来的状态。随后,杯子被放回了客厅的桌子上。那么,戒指现在在哪里呢?如果我们单独问的话,答案是不同的,GPT-4o似乎更聪明。

但如果我们一起问他们,他们的答案就会变得相同:

GPT-4o mini 在回答数学问题方面表现如何?机器之心利用丘成桐少年班2024年选拔测试题测试了其解决数学问题的能力。

虽然GPT-4o mini对题目的解读比较清晰,但在分析过程中却出现了“乱码”的逻辑错误,就像数学课上的学生根本听不懂却很难回答一样。

不过不用担心,毕竟GPT-4o的答案更不理想。它甚至不明白这个数字。。正方形的边长。

在文本摘要能力方面,GPT-4o mini 与GPT-4o 相当。两者都可以捕获关键信息,但GPT-4o 的答案更有条理。

不过主打“日常任务更快”的GPT-4o mini的响应速度确实对得起“更快”的称号。与它对话几乎不需要等待,而且输出速度快得离谱。

日本网友使用GPT-4o mini搭建了AI聊天机器人,响应速度依然快得惊人。

。。链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==mid=2650926863idx=2sn=4d75133db3b54837ccbe21ddbf1daa54chksm=84e42b71b393a267dda426758e8fa3b f8dd87e 737fd605e10a5e3410481d0fad497bc0d6db9dtoken=1370830057lang=zh_CN#rd

通过推特@maKunugi

有网友对比了GPT-4o和GPT-4o mini的输出速度。 GPT-4o mini 显然更快:

。。加载中.

来自推特@moz_ai_tech

从大家的体验来看,GPT-4o mini主打一个字“快”,但实际使用体验可能还是差了一点。

关于作者

随着GPT-4o mini的发布,很多人表示OpenAI再次给了大家一点震撼。其实这背后是一群年轻的学者和很多。。人。

GPT-4o mini 项目负责人是Mianna Chen。

Mianna Chen 在担任Google DeepMind 产品总监后于去年12 月加入OpenAI。

她于2020 年获得普林斯顿大学学士学位和宾夕法尼亚大学沃顿商学院MBA 学位。

该项目的其他领导者包括Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such。

Kevin Lu是OpenAI的研究员,2021年毕业于加州大学伯克利分校。他跟随强化学。。师Pieter Abbeel等人研究强化学习和序列建模。

赵胜佳于2022 年6 月加入,现为OpenAI 的研究科学家,专注于ChatGPT。主要研究方向为大型语言模型的训练与标定。此前,他毕业于清华大学,获得学士和博士学位。来自斯坦福大学。

任宏宇于去年7 月加入,现在是OpenAI 的研究科学家。他也是GPT-4o 的核心贡献者,并正在致力于GPT-Next。任宏宇毕业于北京大学,获学士、博士学位。来自斯坦福大学。此前,他曾在苹果、谷歌、英伟达、微软等公司工作。

胡海棠于去年9 月加入OpenAI,此前曾在谷歌工作。毕业于同济大学,获学士学位,约翰霍普金斯大学硕士学位。

Karpathy:模型变小是自然趋势

此次,OpenAI发布了GPT-4的衍生模型。所以很多人还在问:GPT-5什么时候来?

目前官方还没有关于这个问题的信息。但从OpenAI等AI巨头发布小模型的动作来看,小模型正在成为新的战场。

OpenAI创始成员Karpathy表示,“LLM模型规模的竞争正在加剧……但方向相反”!

我打赌我们会看到非常小的模型,经过深思熟虑并且非常可靠。就连GPT-2参数的设置,也很可能让大多数人认为GPT-2很聪明。

当前模型如此之大的原因是我们在训练过程中的行为浪费了。 —— 我们要求法学硕士记住互联网的全部内容,令人惊讶的是,他们实际上可以做到这一点,例如背诵常用数字的SHA 哈希值。或者回忆起非常深刻的事实。 (事实上,法学硕士非常擅长记忆,比人类好得多,有时只需一次更新就可以长时间记住许多细节)。

但想象一下,如果您正在参加一场闭卷考试,要求您根据前几句话来记住互联网上的任何段落。这是当今模型的(预)训练目标。如果你想做得更好,你就会面临困难。在训练数据中,思维和知识的展示是“交织在一起”的。

因此,模型必须首先变大,然后才能变小,因为我们需要它们(自动)帮助将训练数据重建并塑造成理想的合成格式。

这是一个改进的阶梯——,其中一个模型帮助生成下一个模型的训练数据,直到我们获得“完美的训练集”。当您使用GPT-2 训练它时,按照当今的标准,它会成为一个非常强大且智能的模型。也许在MMLU(大规模多任务语言理解)方面会低一些,因为它不会完美地记住所有细节。也许需要偶尔查阅以确保信息准确。

Karpathy表示,未来小型模型会越来越多,而且会变得越来越有用。这个领域的竞争将会有多激烈?我们拭目以待。

参考链接:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。

标题:GPT4o mini一手测评:懂得不多,但答得极快
链接:https://www.155yx.com//news/xydt/92100.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
异世三国战争16章攻略-三国异世英雄

在异世三国战争中,第16章是一个关键的时刻,关系到整个游戏的最终结局。如果你想获得胜利,那么这个章你必须攻略

2024-07-26
无主之地2黄金钥匙怎么获得-无主之地2黄金箱子在哪

无主之地2黄金钥匙怎么获得无主之地2是一款备受玩家喜爱的游戏,其中黄金钥匙是一个非常重要的道具。本文将为

2024-07-26
仙剑奇侠传三任务全攻略-仙剑奇侠传三全支线

仙剑奇侠传三任务全攻略一、如何开始仙剑奇侠传三的任务?在仙剑奇侠传三中,任务是玩家进行游戏的主要方式之一

2024-07-26
无敌版游戏下载软件给你完美的游戏体验-无敌版的所有游戏

无敌版游戏下载软件给你完美的游戏体验《无敌版游戏下载软件给你完美的游戏体验》随着科技的进步,现在的游戏

2024-07-26