The following article is from AI 深度掂量员 Author AI 深度掂量员日本女优
作家 | AI 责任坊
着手 | AI 深度掂量员 管默默慧 AI+
掂量和洽 | 13699120588
著述仅代表作家本东说念主不雅点
(视频:好意思国时期 4 月 16 日,OpenAI o3 和 o4 mini 发布后,采访首席产物官 Kevin Weil)
OpenAI 的下半场,的确开打了。
这不是模子参数的升级,不是发布会的新模子,而是一场底层范式的变化:
AI 不再仅仅"会语言的模子",而运转成为"能动手的 Agent "。
就在几天前,一篇博客在 AI 圈子刷屏——
不是演讲,不是论文,而是一位工程师写下的里面复盘:《The Second Half》。
OpenAI 掂量员姚顺雨在文中抛出一个中枢判断:
" AI 的下半场,将从惩处问题,转向界说问题。"
这句话一出,AI 自媒体连夜伸开解读;新浪科技、极客公园、凤凰网等也接踵发文援用了有关施行;
许多东说念主点进去,也许你也看过,但……
你可能也有这种嗅觉:
"我大约知说念他说的是从模子到 Agent 的荡漾……"
"但到底什么叫‘界说问题更伏击’?"
"这和我用 AI 有什么联系?"
闲适,你不是一个东说念主。简直所有东说念主皆只记着了一句金句,却没实在搞懂它意味着什么。
本文,等于来讲澄莹这场"从模子到 Agent "的决赛圈逶迤。
不是比谁模子强,而是比谁能把任务吩咐澄莹,让 AI 实在动手去作念事。
(图:OpenAI 掂量员姚顺雨在博客《The Second Half》中建议" AI 的下半场"见识,强调将来竞争将转向"谁能界说任务"。)
第一部分:AI 不再比谁贤惠,而是比谁吩咐得澄莹
1. 它动手干活了,不再仅仅回答
好意思国当地时期 4 月 16 日,OpenAI 发布了新一代模子 o3 和 o4 mini。今夜之间,外网皆在刷一个案例:
模子收受到一张像片,上头曲直常的手写笔墨:" 4th February – finish roadmap "。
而 o3 的操作是这么的:
第一步,裁切图像,精确保留笔墨区域;
第二步,发现笔墨是倒着的,果决旋转图像;
第三步,放大无极部分,增强识别澄莹度;
第四步,读取出施行:" 4th February – finish roadmap "。
这一系列操作,像极了一个锤真金不怕火有素的数字工程师——
先不雅察、再处理、临了判断。
而实在颠覆性的地点在于:
它不是在"识别",它是在主动"动手"惩处问题。
2. 一个"识别",一个"动手"
就在随后,字节也发布了自家的豆包 1.5「深度念念考模子」,主打多模态才能。
咱们团队把 o3 的图像剪辑出来(感兴致同学不错我方测试),喂给豆包,想望望到底差距在哪。
效果呢?
豆包也能识别出字曲直常的,致使准确识别了大部分字母。
但它莫得裁图、莫得旋转、也莫得补全意图。
它仅仅"看了一眼",然后告诉你:"差未几就这么。"
这场对比里,实在的分水岭,
不是在"看"与"不看",而是在"作念"与"不作念"。
3. 实在的分水岭:实行闭环
豆包,是一个模子: 你问一句,它答一句;你给张图,它尽量识别。
而 o3,是一个 Agent。
OpenAI 一共给 o3 提供了如下图的 9 套用具↓,的确是一个"用具东说念主"
它面临无极任务,会主动拆解问题、缱绻实行规章、调用用具,闭环完成任务。
它不再仅仅"回答",而是全经过"惩处"。
你不是在和一个聊天用具对话,
你是第一次——
在和一个"能动手干活"的数字助理打交说念。
4. 你没变强,是因为还在发问
许多东说念主这两年总说:AI 好像没高出了。
文本生成如故老款式;
回答问题没啥新意;
多模态模子也等于望望图,说语言。
但你有莫得想过,也许——
不是模子没变强,而是你还在用第一代的方式在"用 AI "。
Kevin Weil(OpenAI 首席产物官)说了一句很炸的话:
"这些,是你此生将使用过的最差的 AI 模子。"
因为从当前起,它们只会变得更强——
不是变得更能语言隧说念的"大语言模子",而是变得更能作念事。
5. 不是模子弱,是你没吩咐任务
豆包不笨,o3 也莫得什么高明魔法。
它们实在的差距,不在参数、架构、显卡,而在怎样汇聚问题、处理问题:
是等你发问,如故主动激动?
是输出谜底,如故实行经过?
是语言模子,如故实行代理?
AI 的下半场,不再比谁的模子更强,而是比谁界说的问题更准。
你还在让模子"帮你想想"?
第二部分 :AI 不再是模子,而是"颖慧活"的实行系统
1. 上半场的赢家,正在被系统淘汰
几十年来,咱们对 AI 的设想简直是固定的:
搞算法的,肛交颜射掂量何如"训得更准";
写论文的,比谁在某个基准数据集上提了 1.3%;
发布会刷屏的,皆是"此次参数晋升到了几千亿"。
当时候,最值钱的,是搞出新模子、发明新妙技。
谁能锤真金不怕火得准、提得快,谁就能改写礼貌。
咱们称之为:"AI 的上半场 "。
在这个赛说念上,赢家皆是搞方法的:
从早年的 AlexNet、Transformer,到 GPT、SAM、Gemini ……简直每一个里程碑,皆是算法范式的结巴。
但当前,这个游戏依然走到非常。
OpenAI 的掂量员姚顺雨在这篇景象级博客中说:" AI 的下半场,将从惩处问题,转向界说问题。"
2. 模子配方已被工业化
姚顺雨指出,如今能惩处大大皆 AI 任务的,
不再是一种某东说念主刚发明的"新方法",而是一套被反复考据过的"通用配方":
"语言预锤真金不怕火 + 推理才能 + 用具调用 = 智能 Agent "
这意味着什么?
o3/o4 不是靠某个"魔法结构"赢的。
它靠的是一整套"系统工程":
提前汇聚语言天下,学会在语言空间中推理,掌捏用具链的使用。
是一个"锤真金不怕火有素的数字工程师",它知说念何如不雅察、拆解、实行。
一句话说澄莹:
"它不是更贤惠,而是更能动手。"
3. 为什么 o3/o4 能作念到?
咱们用最直白的方式来讲明这个分水岭。
豆包: 你问它问题,它回答;你给它图像,它识别;
o3: 你给它一个无极的问题,它判断你要干什么 → 剪辑图像 → 调用翻转 → 放大处理 → 再来一次识别 → 输出笔墨 → 证实你是否还想接续。
这不再是"回答问题",而是完成任务。
咱们不错从 OpenAI 给 o3/o4 设定的「系统指示词」(system prompt)中看出它的定位:"你是一个万能实行助理,具备代码、浏览、图像汇聚与操作才能,你的方针是通过最可靠、最安全的方式匡助用户完成任务。"
留心,重心不是"语言模子",而是"实行助理"。
它会反复证实谜底准确性;
会调用代码用具作念数据分析;
会主动提醒用户信息不齐全、建议分步处理……
它的"贤惠",不在语言,而在行动。
4. 差距不是推理力,是"闭环"
你不错说豆包也能识别图像,也能回答问题。
但差距就在这里:
o3 知说念该作念什么;
它知说念什么时候该叫用具;
它知说念效果无极时要不要再试一次;
它知说念什么时候应该暂停、恳求东说念主类反应。
这一切,不是智商,而是实行力。
实在拉开差距的,不是参数,而是闭环。
这是一种"任务驱动型智能",而不是"对话式智能"。
AI 的范式依然从"输入 → 输出"造成了"问题 → 拆解 → 推理 → 用具链调用 → 考据 → 完成任务"。
你可能会问:
最近很火的 MCP 合同(Model Context Protocol),由 Anthropic 于 2024 年 11 月推出
不是也在惩处"模子何实在行任务"的问题吗?
那 OpenAI 为什么莫得跟?
也许谜底,就藏在 o3 的架构里:
它没遴荐走"调用外部合同"的门路,
而是告成把"判断、实行、考据",一整套经过,作念进了模子里面。
不是不伤风,
而是他们可能——依然找到了更好的惩处主见。
他们不是在等方法,而是在提前已毕闭环。
是以,当你还在比谁的模子答得更准,OpenAI 依然在比谁能实行得更稳。
5. RL 被谁取代了?是语言 + 用具 + 推理
强化学习也曾是"终极瞎想"。
DeepMind 用它下围棋、玩游戏、锤真金不怕火机械手,每一项看起来皆像是通往"通用智能"的捷径。
但当前你很少在发布会上听到" RL "这个词了。
为什么?
因为 RL 最大的问题是:泛化才能太差。
它在 Dota 上能打爆你,换个游戏就齐备废掉;
能抓苹果,却打不开雪柜门——这等于 RL 的通病:死记硬背,不懂变通。
直到 OpenAI 发现:语言模子本人,等于最强的"跨任务先验"。
"语言,是咱们东说念主类对天下的压缩抒发;亦然 AI 泛化才能的要津进口。"
你不错让语言模子"幻想"任务要领、构建天下模子、缱绻旅途——
这比传统 RL 强太多了,并且还低廉、矫健、可控。
是以,当前的智能体不是" RL-trained ",而是" language-prompted + tool-enhanced "。
6. 小结:AI 已不啻是模子
咱们常说"模子智能",但今天这个词依然不够用了。
你看到的 o3,不再是一个模子,而是一整套"颖慧活的系统":
有语言汇聚行为大脑;
有推理链条行为判断;
有调用用具的手;
灵验户交互行为眼睛和耳朵;
有系统指示词界说的步履准则。
它不是在陪你聊天,而是在准备接办你的责任。
这,等于 AI 下半场的时候界说:从"对话模子"到"实行操作系统"。
"模子的时间欺压了,界说问题的东说念主,才是新天下的工程师。"
第三部分 :谁界说任务,谁等于 AI 下半场的赢家
1. 拼的是"界说任务"才能
当 o3/o4 带着 Agent 才能出现,全行业其实皆听到了一个信号:
" 模子干戈欺压了,实在的竞赛刚刚运转。"
你再堆更大的模子,只可带来 5% 的校正;
但你如果能换一种"界说任务 + 联动用具"的方式,可能等于 50% 的才能跃迁。
OpenAI 很早就坚决到了这极少。姚顺雨在一篇博客里,把这个荡漾回首成一句话:
" 上半场比的是方法,下半场拼的是评估。"
这里的"评估",不是论文上的 " test set accuracy ",
而是你何如构建一个能让智能体灵验的任务框架。
换句话说,谁界说问题的方式更逼近现实,谁就能同样 AI 作念出更灵验的事。
2. 别只发问,让 AI 实行经过
在 AI 的上半场,你只需要学会何如"问一个好问题"。
但鄙人半场,更伏击的,是你能不成吩咐出"一个能被完成的任务"。
你需要掌捏的,不是 prompt 拼接妙技,而是任务遐想念念维。
Prompt 是一句话,任务是一个经过。
实在有坐褥力的 AI,是"能被实行"的那一套经过。
你不错接续说:"帮我写一个邮件回应。"
这叫作念 调用智能模子。
也不错运转说:"我每天 9 点会收到一堆责任邮件,你先按优先级索要,再用我平常的结构回首,临了整理出我的当天待办。"
这就不是在"发问",而是在界说责任经过。
AI 在这里不再是"一个对话窗口",而是一个你锤真金不怕火出来的数字助理。实在好坏的东说念主,不是问得好,而是吩咐得澄莹。
3. 围绕 AI 重构组织,才可能赢
OpenAI 的首席产物官 Kevin Weil 在最新访谈中,反复强调一个词:" Operator(AI Agent)。"
他说:"总的来说,这是 ChatGPT 从为你回答问题到在现实天下中为你作念事的荡漾之年"
在他看来,AI 的任务,不再是写一段案牍、生成一张图,而是:
浏览网页、索要结构化信息;
自动填写表格、下单、购买;
汇聚东说念主类的高层意图,并动态实行;
证据实行反应,自我逶迤步履旅途。
这不再是"用具升级",这是责任方式重构 。
那些依然只靠 prompt 用 AI 的公司,临了只可作念" AI 插件";
而那些实在学会用 Agent 重构经过的公司,才有可能成为" AI 驱动企业"。
AI 依然能完成任务,接下来该轮到组织来再行遐想任务。
4. 不是赶上 o3,而是先让它动手
许多东说念主懆急:中国事不是又过期了?
模子差距是不是越来越大了?OpenAI 的 o3/o4 看起来牛年马月……
但如果你换个角度想:
模子代码是开源的;
方法配方是公开的;
最中枢的 Agent 架构,也在缓缓被复刻……
实在能决定差距的,是谁先用起来,谁先敢放权给用户。
你不错看到:
通义千问依然在内测用具链;
豆包 1.5 诚然动作慢,但也在强化"多轮指示"才能;
智谱、Minimax、Moonshot、Kimi 等国内模子,简直皆在快速 Agent 化。
问题不是没模子,而是没东说念主敢"的确放弃"。
你还没见过一个产物,能替你点鼠标、写说明、处理邮件。
是以契机还在。
这等于契机所在。
"你不需要造出 o4 或者 o5,只需要比别东说念主早三个月,让它动手劳动,你就赢了。"
5. 下半场,任务界说者才是主角
上半场的骁雄,是搞方法的东说念主;
下半场的骁雄,是敢再行界说任务的东说念主。
你不需如果算法民众,也不需要写代码。
但你得能吩咐一个任务:
比如让 AI 自动缱绻一天的待办;
比如让它每天汇总你的数据、提建议;
比如给学生定制个性化学习策动;
你吩咐得越澄莹,AI 干得就越像个东说念主。
下半场,拼的不是贤惠,而是组织力。
AI 能不成成为坐褥力,不取决于它的贤惠,取决于你有莫得给它一个澄莹任务和实行范围。
Bonus|鄙俚东说念主也能作念的 3 件事:
上头讲了"何如吩咐任务"。
那鄙俚东说念主不懂时候、没用过 Agent 何如办?
三级你不错从底下这三件事运转,坐窝试一试:
建议一:把任务说澄莹,而不是只发问题
"帮我写一个小红书标题"
"我在写一篇对于 AI 下半场的图文,主角是 OpenAI 和字节,我但愿它勾引科技感用户,能在微博和一又友圈被转发,写 5 个不卓著 16 字的案牍标题。"
指示词参考:「你当前是我的编著,请用 3 步优化这个任务的方针和结构」
建议二:条目它拆要领,不要只给效果
"帮我分析一下竞争敌手"
"请你第一步帮我列出敌手官网上的所有产物功能,第二步回首与我公司的异同,第三步输出一段文告材料给雇主看。"
指示词参考:「你当前是我的分析助理,请按【经过化任务】方式实行。」
建议三:斗胆让它"动手",别怕费事它
"请你写一段剧本"
"帮我写完剧本后,再生成一张封面图,再起一个更勾引东说念主的标题,再把这套东西改成合适发在抖音上的口吻。"
指示词参考:「我授权你动手干活,不要等我每一步皆下指示。」
"你不是要造成一个" AI 工程师",
你仅仅要学会:像对一个实习生下任务一样,对 AI 启齿。"
" AI 会不会不伏击,要津是你有莫得告诉它:你要它干什么。"
斥逐 · AI 的下半场,依然运转
你不需要比 AI 更贤惠, 只需要比别东说念主更早学会让它替你干活。
从 o3 运转,AI 的天下分辨了:
一部分东说念主还在"问它会不会", 另一部分东说念主依然"让它去作念了"。
模子的才能差未几,差的是你能不成敢交任务、放权实行。
" 不是 AI 不够强,而是你还没干预"问题界说者"的扮装。"
下半场依然开打,
输赢,取决于你能不成换一种"发问方式"。
当前,尝试就让 AI 运转真实的干点活儿吧。
原文联贯:
https://ysymyth.github.io/The-Second-Half/
https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/ChatGPT/ChatGPT-04-16-2025
https://www.youtube.com/watch?v=AlfA-0NyTNA&t=1166s&ab_channel=CNBC-TV18
着手:官方媒体 / 网络新闻
热点资讯