就在刚刚,OpenAI 的「圣诞大礼包」来了。
整场直播堪称 OpenAI 史上最短发布会,仅持续了 15 分钟,不过,主持阵容依然强大,包括 CEO Sam
Altman、思维链提出者 Jason Wei 以及 Hyung Won Chung、 等人。
Altman 在直播活动结束后,也为我们送上了第一手总结。
我们刚刚推出了两项新功能:
o1,世界上最智能的模型。比 o1-preview 更智能、更快,功能更多(比如多模态功能)。现在已在 ChatGPT
中上线,稍后将推出 API 版本。
ChatGPT Pro。每月 200 美元。提供无限使用和更智能的 o1 模式。更多福利即将推出!
十二月不只是圣诞老人的主场,也将是 AI 年底最后一轮的狂欢。
满血版 o1 发布,看图说话无压力,但有个细节让人「细思极恐」
简言之,OpenAI今天推出了满血版 o1 以及 ChatGPT Pro 订阅计划。
满血版 o1 比 o1-preview 更智能、响应速度更快,功能更多(比如多模态功能),现于今日面向 ChatGPT Plus
和 Team 用户推出,而 Enterprise 和 Edu 用户将从下周开始使用该模型。
官网显示,ChatGPT Plus 用户和 Team 用户每周可以使用 OpenAI o1 发送 50 条消息,每天可以使用
OpenAI o1-mini 发送 50 条消息。
满血版 o1 的思维更加简洁,响应时间比 o1-preview 更快,在处理复杂的现实问题时性能优于
o1-preview,能将主要错误减少 34%。
并且 OpenAI 计划在未来几个月内提供对网页浏览、文件上传等的支持。与此同时,预览版模型 o1-preview
也已经被正式从模型选择菜单中移除。
不过,满血版 o1 在部分基准测试中的表现不及预览版,比如 MLE-Bench。后者正是由 OpenAI 此前推出的一个旨在衡量
AI Agents 在机器学习工程任务中表现的基准测试工具。
另外,网友也从更新后的 o1 System Card 中找到了一些值得关注的细节。
比如 o1 系统卡中写到,满血版 o1
在感知到威胁(被关闭或被取代)时,可能会采取一些自保措施,比如尝试停用监督机制,或者把自己的「参数」(「知识」或「记忆」)偷偷传出去,并尝试用这些「参数」去替换或影响新模型。
附上 o1 System Card
地址:https://cdn.openai.com/o1-system-card-20241205.pdf
满血 o1 到底有多强?OpenAI 向我们演示了 o1 的实际效果。
一个典型案例是其对太空数据中心手绘图的分析能力,它仅用 10
秒就精确计算出散热装置的表面积,同时深入阐述了太阳能与深空环境的互动机制。
让 满血版 o1 详述二世纪罗马帝国统治者的统治期间与重要贡献时,其仅需 14 秒即可完成分析,相比之下,预览版则需要 33
秒。
APPSO 也第一时间简单上手实测满血版 o1。
在「Strawberry 中有几个 r」的测试中,满血版 o1 成功给出了正确的答案,这一点,值得点赞。
「9.11 与 9.8 哪个大?」的问题也没能难倒满血版 o1,且整体的「思考过程」也富有逻辑。
由于满血版 o1 还支持多模态功能,于是,我们也上传开篇的 OpenAI
直播活动的照片,看看识别效果如何。从人物组成、场景布局到背景装饰、以及气氛与情景,满血版 o1 都分析得条条是道。
X 网友 @altryne 继续给 o1 上强度,提出了一个冰块融化的问题。
仅仅 4 秒钟的时间,满血版 o1 就给出了答案。相比之下,o1-preview 在「思考」29 秒后以失败告终。
最贵 AI 订阅来了,200 美元订阅费值不值?
另一个比较大的更新则是售价 200 美元(折合人民币 1452 元)的 ChatGPT Pro 订阅计划。
ChatGPT Pro 订阅计划将允许用户无限制访问 o1 以及 o1-mini、GPT-4o 以及高级语音模式,还包括一个仅供
Pro 用户使用的 o1 版本,也就是 o1 pro 模式。
▲图片来自 @MatthewBerman
据悉,o1 pro 模式主要是增加了模型在响应答案之前的「推理」时间,能够通过更多的思考时间生成最可靠的回答。OpenAI
技术团队成员 Jason Wei 在直播活动中表示:
我们预计 ChatGPT Pro 的目标用户群体将是那些已经在数学、编程和写作等领域充分利用和挑战 ChatGPT
模型能力的高级用户。
在外部专家测试者的评估中,o1 pro 模式在数据科学、编程和案例法分析等领域,提供了更为准确且全面的回答。
而相比于 o1 和 o1-preview,o1 pro 模式在数学、科学和编程等 ML
基准测试中,表现也更为出色,特别是在较简单的编程竞赛问题中,错误率大大降低。
就数学竞赛 AIME 2024 而言,o1-preview 的得分为 50,而满血版 o1 则达到 78,而最强大的 o1
pro 则达到 86。同理,在编程竞赛 Codeforces,博士级科学推理问题 GPQA Diamond 等较量中,o1 pro
也都领先于满血版 o1。
而为了突出 o1 pro 模式的主要优势(提高可靠性),OpenAI
研究团队使用了更加严格的评估设置。只有当模型在四次尝试中四次都回答正确时,才会认为它解决了问题。
如果回答生成时间较长,ChatGPT 则会地显示进度条,并且当用户切换到其他对话时,还会贴心地发送应用内通知。
在直播活动中,OpenAI 也向我们展示了 o1 pro 的实际效果。
此前 o1-preview 未能攻克的蛋白质难题,满血版 o1 经过 53 秒的分析,不仅给出了准确答案,还能通过 Canvas
界面提供更为详尽的解释说明。
写在最后,最近 Altman 在接受采访时透露,ChatGPT 的周活跃用户已突破 3 亿大关,平台每日消息量更是高达 10
亿条。
而 OpenAI 未来一年的目标则是撬动 10 亿用户市场。想要达成这一目标,接下来的 11
场直播活动或许是吸纳新用户的重要契机。
最好的新品永远在下一场活动,让我们搬好小板凳拭目以待吧。
ChatGPT Pro版本第一时间实测:1452元/月
时间:2024-12-06 19:14来源:
未知
点击:
次
责任编辑:admin
顶一下
(0)
0%
踩一下
(0)
0%
免责声明:中国民生播报网本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与中国民生播报网无关。其原创性以及中文陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。凡注明为其他媒体来源的信息,均为转载自其他媒体,转载并不代表本网赞同其观点,也不代表本网对其真实性负责。您若对该稿件由任何怀疑或质疑,请即中国民生播报网联系,本网将迅速给您回应并做处理。
- 最新评论 进入详细评论页>>