Skip to content
  • 元宇宙社交空间入口
51蛙吖蛙元宇宙 – 3D社交空间

51蛙吖蛙元宇宙 – 3D社交空间

51蛙吖蛙元宇宙

  • 首页
  • Toggle search form

作者: admin

「好用又便宜」的 Nano Banana 2 来了,这次能改变你的出图工作流吗?

去年,Nano Banana 刚出圈的时候,我身边不少做平面内容的朋友第一反应是:终于不用再开 Photoshop 改那些破海报了。
但兴奋劲过去之后,大家发现一个尴尬的事 —— 模型是好模型,可每次要用的时候还得专门跑去找入口、调参数:当然,最重要的体验是你还得等半天。这个情况在 Nano Banana Pro 发布之后,反而更加严重。
换言之,它更像一个「偶尔惊艳你一下」的玩具,而不是随手就能用的工具。对于真正拿 Nano Banana 尝试创作的用户来讲,也当然需要一款既好用又便宜的版本,来支撑“量大管饱”的需求。
这也是为什么 Nano Banana 2 备受关注的原因:2 月 26 日,Google DeepMind 发布了 Nano Banana 2(官方也称 Gemini 3.1 Flash Image)。

 

实际上,在全球网友已经玩了两个小时之后,谷歌官方的公告才姗姗来迟,宣布了 Nano Nano 2 的正式到来。

表面看是一次模型升级,但我觉得更准确的说法是:Google 想让图像生成从「你得专门去找它」变成「量大管饱的创作者工具」。

01

三件事,Google 往前推了一步

先说能力层面。Nano Banana 2 确实在几个老大难问题上有了进展。
第一件:画图的时候,模型终于「懂点时事儿」了。
 Google 把 Gemini 的现实世界知识库和实时搜索信息接入了生成过程。Nano Banana 2 可以利用 Gemini 模型丰富的全球知识,通过网络搜索图像来创建增强的视觉效果。
听起来有点抽象,翻译成人话就是——你让它画一张信息图,它知道数据长什么样;你让它画东京塔,它不会画成埃菲尔铁塔。这对做信息图、数据可视化、或者任何需要「画得对」而非「画得美」的场景,算是实质性改善。
第二件:图里的字,终于能看清了。 这事听起来很基础,但在很多商业场景里,文字渲染比画风重要十倍。营销海报、活动主视觉、UI 原型、门店指示牌——字一糊,整张图就废了。

在接入 Gemini 模型实现网络搜索图像之后,你可以实时地获取世界各地的实时信息来辅助内容生成,比如获取位置以及实时天气数据,来创建逼真的窗户景色。

 

如果你在 Nano Banana V1 时代就一直在使用它的话,你可能会记得文字渲染一直是个老大难的问题。

这一次,谷歌也终于将其作为一个重要升级项目进行了加强。

Nano Banana 2 强调的「清晰可读的文本生成」,加上支持图内翻译和本地化,直接把「出一张可用物料」的可用性与链路缩短了一大截。

 

对做出海业务的团队来说,这可能比任何风格升级都实在。谷歌为了展示这种能力,自己还做了一个 demo:它可以直接将广告翻译成各种不同的语言以适应国际市场,以此来炫耀 Nano Banana 2 通过图像内功能理解本地化视觉元素的能力。
 

第三件:角色和物体的一致性,开始够用了。 同一工作流里最多维持 5 个角色相貌一致、14 个物体外观一致;分辨率覆盖 512px 到 4K,画幅可控。对做分镜、做连续故事、做系列化物料的人来说,这类能力的价值远大于「多一种风格」。
说句实话,单看这些能力点,Nano Banana 2 并没有做出让人「哇」一声的突破。每一项都是在已有方向上往前拱了一步。
但这次更新真正有意思的地方,不在能力本身。

02

比起「画得更好」,Google 这次更在意「铺得更广」

Nano Banana 2 被塞进了几乎所有你能想到的 Google 产品入口里。
在 Gemini 里,它会替换掉 Fast / Thinking / Pro 模式下原来的 Nano Banana Pro。

 

如果你是 Google AI Pro / Ultra 订阅用户,仍然能通过图片的三点菜单调用 Nano Banana Pro 做更精细的任务——但默认出图能力,已经换代了。
在 Search 里,它进入了 AI Mode 和 Lens,覆盖 141 个新增国家与地区、额外 8 种语言。在 Flow 里,它直接成为默认图像模型,对所有用户零 credits。在 Google Ads 里,它变成创建广告活动时的「建议能力」。
这套动作连起来看,逻辑很清晰:Google 的判断是,图像生成的真正战场不在模型榜单上,而在入口里、在工作流里、在用户「顺手就用了」的那个瞬间。
怎么理解这件事?打个比方:过去的 AI 画图工具更像一家「需要专程跑去的独立画廊」,手艺不错,但你得特地安排时间。Google 现在做的事情,是把画廊变成超市里的文具货架——你来买菜的时候顺手就拿了。

 

这也解释了为什么 Nano Banana 2 选择了 Flash 速度档而不是 Pro 档作为主力铺设版本:毕竟在追求规模、速度和分发密度上,在这个阶段比极致质量更重要。

03

给创作者的信号:图像模型正在变成「可配置的渲染引擎」

面向开发者/创作者的版本里,还有几个细节值得注意。

Nano Banana 2 新增了 4:1、1:4、8:1、1:8 等超宽幅画幅比例,以及 512px 的低分辨率档。

 

后者目标很明确:降延迟,适配高并发和快速迭代。它还提供了「可配置的 thinking levels」,分 Minimal(默认)和 High/Dynamic 两档,让开发者在速度与推理强度之间自己拨杆。

如果为了追求极致效果,你当然可以去生成 4K 画质。你甚至可以按照自己的需求、喜好和风格,为自己定制壁纸。

 

当一个图像模型开始提供分辨率挡位、画幅参数、推理强度拨杆的时候,它就不再是一个「创意工具」,而是一个「渲染引擎」了。 这对两类产品形态会产生直接影响:面向普通用户的模板化出图工具,和面向企业的批量生产系统。

过去靠「套壳 + 流程胶水」建立壁垒的图像工具,接下来的日子可能不太好过。当底层模型自己就能输出结构化、可预测的结果,中间层的价值会被压缩。

另一件事也值得提:Google 在这次发布中继续强化了生成内容的可验证链路——SynthID 水印加 C2PA Content Credentials 的组合。官方透露 Gemini App 里的 SynthID 验证功能已被使用超过 2000 万次。生成式视觉越逼真,验证机制就越得前置,这是一个行业性的基础设施问题,Google 在把它当标配来做。

回到开头的那个问题:图像生成模型的竞争,到底由什么决定?

从 Reuters 此前对 Nano Banana 出圈的报道来看,它确实在短时间内给 Gemini 带来了大量新用户和海量生成量。但「爆款」这种事,偶发性太强。

Nano Banana 2 想做的,恰恰是把偶发性变成确定性:更快、更可控、更容易被调用,铺进尽可能多的产品入口里。它不一定是画得最好的那个模型,但它可能是你「最先碰到」的那个。

在 AI 产品的竞争里,这往往比「最好」更管用。

展示量: 6

人权高专:阿富汗成人权墓地 苏丹战争毫无意义 加沙现状属人为灾难

联合国人权事务高级专员蒂尔克周四在联合国人权理事会第六十一届会议举行的三场互动对话会上,分别就阿富汗、苏丹和巴勒斯坦被占领土人权状况发表讲话,指出严重侵犯和践踏人权行为持续发生,呼吁各方履行国际法义务并确保问责。
联合国人权事务高级专员蒂尔克周四在联合国人权理事会第六十一届会议举行的三场互动对话会上,分别就阿富汗、苏丹和巴勒斯坦被占领土人权状况发表讲话,指出严重侵犯和践踏人权行为持续发生,呼吁各方履行国际法义务并确保问责。
展示量: 9

联合国毒品预警系统拦截16亿剂致命芬太尼原料货运

国际麻醉品管制局周四表示,国际早期预警系统拦截了一批用于制造芬太尼的化学品货运,这些化学品原本足以生产多达16亿剂的潜在致死剂量。
国际麻醉品管制局周四表示,国际早期预警系统拦截了一批用于制造芬太尼的化学品货运,这些化学品原本足以生产多达16亿剂的潜在致死剂量。
展示量: 10

Vibe Coding,是怎么「玩废」程序员的?

作者| Moonshot

编辑| 靖宇

「 自然语言就是新的编程语言 。」这句话在过去一年里被无数人奉为圭臬。

特斯拉前 AI 总监 Andrej Karpathy 带火的 「Vibe Coding」(氛围编程)更是让这种狂热达到了顶峰——你不需要懂语法,不需要管实现,只要对着 AI 喊出需求,然后 Check 一下感觉(Vibe)对不对就行了。

听起来,程序员的门槛似乎要被抹平了。

但就在上周,大模型领域的「优等生」、Claude(也是最受欢迎的 Vibe Coding 模型之一)的母公司 Anthropic 居然自己跳出来,给这股热潮泼了一盆冰水。

图源:arxiv

 

他们发了一篇题为《AI 如何影响技能形成》的硬核论文,告诉我们一个残酷的真相: 如果你在学习新东西时过度依赖 AI,你不仅不会变快,你的核心能力还会出现显著退化 。

甚至,你可能正在变成一个「半废」的工程师。

 

01

人是轻松了,脑子也废了

 

Anthropic 的研究员这次很较真,他们找来 50 多位有经验的 Python 程序员,搞了一场「闭卷考试」。

考题是让大家去学一个从来没用过的冷门 Python 库:Trio , 来完成一系列异步编程任务。这完美模拟了程序员在工作中经常遇到的场景:老板突然让你用一个你没见过的工具/框架去解决问题。

程序员被分成了两组:

「手动组」 : 只能看官方文档,用 Google 搜索,严禁使用 AI。

「AI 组」 : 配备了一个基于 GPT-4o 的强大 AI 助手,可以随时提问、让它写代码、修 Bug。

任务结束后,所有人都参加了一场原本用于检验「学习成果」的考试。

考试内容包括编程语法、对代码逻辑的理解、阅读代码的能力,以及调试(Debugging)能力。

大家的第一反应肯定是:AI 组肯定秒杀「土法炼钢」组吧?毕竟这可是 GPT-4o 级别的辅助。

但实验结果出来后,所有人都沉默了 。

无 AI 组问答得分普遍高于 AI 辅助组|图源:Anthropic

 

最明显的结果是:成绩不好。数据显示, 使用了 AI 的那组人,考试得分平均比手写组低了 17% 。

论文中特别提到,分差最大的领域在于调试(Debug)。

这并不意外,毕竟 Vibe Coding 最大的弊端就在于,用户不知道那堆代码是怎么跑起来的,排查和调试都无从下手。

「 好吧,我承认我变菜了,但我至少变快了啊 !」这可能是很多 Vibe Coding 爱好者的最后防线。

很遗憾,Anthropic 的数据再次打脸。报告显示,在完成任务的总耗时上,AI 组和手动组在统计学上没有显著差异:AI 组平均 23 分钟,手动组平均 24.7 分钟。

为什么会这样?我们不是有 AI 加持吗?论文指出了一个被忽视的时间成本:

「 交互税 」。

有些程序员为了让 AI 写出完美的代码,花了大量时间在「写提示词」上 。数据显示,有人甚至花了 11 分钟在跟 AI 聊天,或者在一项 35 分钟的任务里,花了 30% 的时间在构思怎么问问题。

「时价比」不高,花费的时间并没有转换成得分|图源:Anthropic

 

再结合上 Vibe Coding 最短的短板——Debug 困难。AI 组很容易陷入试错式调试(Iterative Debugging) 的循环:AI 生成代码-报错了-把报错丢给 AI:「解决一下这个 bug」-AI 再生成-又报错了……

最后整个工程变成了不可逆转的「屎山黑箱」(「屎山代码」指一种混乱、难以理解和维护的代码状态,「黑箱」则指不知道内部结构的系统)。

在这个过程中,时间一分一秒流逝,而程序员的大脑处于一种「挂机等结果」状态,既没有节省时间,也没有学到东西。

到这儿你可能对 Vibe Coding 祛魅了?别急,这篇论文最精彩的部分,在于它通过录屏分析,把使用 AI 的程序员分成了六种流派。

研究员发现,虽然 AI 组平均分低,但组内方差极大。

有的人「废」了,有的人却「超神」了。区别全在于怎么用 AI 。

 

02

代码没编好,

用户画像倒是有了

 

第一类用户都可以归为「AI 废人」的低分低能组,考试得分极其惨烈,平均分都在 40% 以下(不及格)。

这一大类里还能细分为三个小类,分别是:

  • 甩手掌柜型 (AI Delegation): 直接把题目复制给 AI,「帮我写个函数解决这个问题」,然后 Ctrl+C / Ctrl+V,直接交卷。他们任务完成速度确实最快(平均 19.5 分钟),但学到的东西几乎为零,我奶奶来做都能行。
  • 半途而废型 (Progressive AI Reliance): 刚开始还想自己试试,写了两行发现报错,心态崩了:「算了,AI 你来吧。」然后彻底躺平。
  • 盲目试错型 (Iterative AI Debugging): 这是最典型的「无脑 Vibe」。遇到 Bug 不看回溯,直接把报错扔给 AI。AI 给出的代码看都不看就运行,不对再扔。这是也是最惨的一群人。浪费了大量时间后拿了个低分,完全成了 AI 的「人肉测试员」。

第二类用户就乐观多了,虽然用了 AI,但考试成绩甚至能和手写组持平(65% – 86%),寻找到了人机共生的解决方案。

拿 AI 作「辅助驾驶」的三类人得分更高|图源:Anthropic

 

这一大类里也能细分为三个小类:

  • 打破砂锅型 (Conceptual Inquiry): 他们几乎不让 AI 写代码。 他们只问概念:「为什么要用 await?」「这是什么原理?」搞懂了原理,再自己手写。这是真正的「把 AI 当导师」,而不是当实习生,而且这种 Vibe Coding 也得需要用户真的「懂行」、「会问」。
  • 先斩后奏型 (Generation-Then-Comprehension): 让 AI 写代码,但在复制粘贴之前,他们会追问:「解释一下这行代码为什么这么写?」这么一句,就能让 AI 先自审一遍,自己也能看到 AI 的编程思路,把 AI 的输出转化为了自己的知识。
  • 混合双打型 (Hybrid Code-Explanation): 融合了上面两个类型的特点,会写「请写出代码,并解释每一步的逻辑。」这种提示词,强制 AI 输出推理思维链,让自己跟上 AI 的思路,也便于去 Debug。

为什么用的是同一个 AI,人和人的差距这么大?

或许并不是 AI 废掉了程序员, 而是我们自己在「偷懒」的诱惑面前,主动选择了缴械投降 。

 

03

Vibe Coding 的代价是

 

Anthropic 的这篇报告,其实触及了一个心理学概念:

认知卸载(Cognitive Offloading) 。

即当工具足够强大时,我们会下意识地把原本需要大脑处理的计算、记忆、逻辑推演任务,「卸载」给工具,就像自动驾驶一样。

在 AI 时代,我们正在把「理解力」卸载给大模型。

论文里用了个比喻:AI 就像一副「外骨骼」,当你穿着它时,你力大无穷,能搬起千斤重。但问题在于,肌肉的生长需要负重和撕裂,如果你长期穿着它不脱下来,你的肌肉就会因为缺乏刺激而萎缩。

研究认为,过度依赖 AI 会直接跳过思考过程|图源:Anthropic

 

这篇论文中有一个非常不起眼、但细思极恐的数据: 报错数量 。

手动组在做任务时,平均每人遇到了 3 次报错。所以他们被迫停下来,盯着红色的报错信息,去查文档、去思考「为什么类型不匹配」、「为什么线程没挂起」。

而 AI 组平均每人只遇到了 1 次报错,大多数时候,AI 给出的代码不仅能跑,而且跑得极其顺滑。

AI 组的报错显著少于无 AI 组|图源:Anthropic

 

这听起来是 AI 的优点?不,Anthropic 的研究员指出,这恰恰是问题的根源。

论文明确写道:「 遭遇并独立解决错误,是技能形成的关键一环 。」

手动组之所以学得好,是因为他们经历了「摩擦」。每一次报错,都是现实世界给思维的一次「阻力」。正是为了克服这种阻力,大脑被迫建立了深刻的心理表征(认知心理学术语,指当外部信息进入人脑之后,它会被我们的大脑加工,以一种特别的结构储存在大脑中)。

而 AI 组的体验就太「平滑」了。但代价是,你失去了对地面的「抓地力」:脱下外骨骼,路都不会走了。

这种「AI 过于平滑」的通病,不仅仅存在于编程中,正在蔓延到我们生活的方方面面。

在编程里,它消除了 Debug 的痛苦,让你误以为自己掌控了系统;在创作里,它消除了构思的枯燥,让你误以为自己拥有了创意;在人际关系里,它甚至也在消除「摩擦」 。

就像很多 AI 成瘾的问题,都源自于 AI 永远情绪稳定,永远秒回,永远顺着你的话说,这种极致的「平滑关系」,何尝不是一种 Vibe Social。

 

04

「我行我上」的幻觉

 

Vibe Coding 最迷人也最危险的地方,在于 它制造了一种「快乐但无知」 (Happy but Ignorant) 的幻觉 。

论文中提到了参与者们微妙的心理变化:AI 组的参与者普遍觉得任务「更容易」,「手动组」则觉得任务很难,过程很痛苦。

但反转来得很干脆:那些觉得「容易」的人,在随后的测试中一塌糊涂;而那些觉得「困难」的人,虽然过程煎熬,但自我报告的「学习和成长感」 却更高,分数也更高。

所以 Vibe Coding 让你在写代码的过程中感觉自己是个天才,直到代码报错的那一刻,你才发现自己只是个「睁眼瞎」 。

在面对「未知」时,AI 是公平的,它会平等地「废掉」每一个试图偷懒的大脑,无论这个大脑曾经多么睿智。

研究人员按照编程经验将参与者分成了三层:1-3 年、4-6 年、7 年以上。

结果数据显示,在所有经验层级中,不使用 AI 的组,考试得分都高于使用 AI 的组。

哪怕是资深工程师,在 AI 辅助下得分也低于无 AI 组|图源:Anthropic

 

这意味着,即使你是入行 7 年以上的老鸟,在面对一个全新的技术领域时,如果过度依赖 AI,你的学习效果依然会大打折扣。

当然了,Anthropic 的这篇论文也不是让我们因噎废食,退回到手写代码的时代。

它更像是一份「AI 时代生存指南」。想要不被 AI「废掉」,我们需要改变使用习惯,从报告中的「高分高能组」那里取经:

比如 多问「为什么」,少说「帮我做」 ;哪怕是 AI 生成的代码,也要像审视同事的代码一样,逐行阅读,理解代码逻辑;珍视 Debug 的机会,下次遇到 Bug,试着先自己分析 5 分钟,而不是 5 秒钟后就截图发给 ChatGPT。

AI 确实能让我们跑得更快,但前提是,你得知道路在哪里,以及车坏了该怎么修。

毕竟, 当自动驾驶失效的时候,只有那个还没忘记怎么握方向盘的人,才能救全车人的命 。

展示量: 15

Gemini 3.1 Pro 曝光,能力翻倍价格不变,谷歌想重新定义 AI 竞争规则

作者|桦林舞王

编辑| 靖宇

 

马年「AI 春运」赛程过半,OpenAI、Anthropic、阿里等玩家相继拿出新活儿,现在,Google 也正式加入!

当地时间 2 月 19 日,Google 曝光 Gemini 3.1 Pro 最新模型。

这一次,Google 没有玩什么花哨的概念,直接用数据说话。

在 ARC-AGI-2 这个公认的推理基准测试中, Gemini 3.1 Pro 拿到了 77.1% 的分数 。什么概念?它的前辈 Gemini 3 Pro 只有 31.1%,就连专门用来「深度思考」的 Gemini 3 Deep Think 也只有 45.1%。

77.1% 对比 31.1%, 这不是渐进式改进,这是推理能力的翻倍突破 。

更让人意外的是,Google 选择了一个近乎「反商业」的策略:价格不涨。Gemini 3.1 Pro 保持了与 Gemini 3 Pro 完全相同的定价结构—— 相当于给所有 API 用户免费升级了推理能力 。

JetBrains 的 AI 总监 Vladislav Tankov 在测试后直言:相比之前版本有 15% 的质量改进,「更强、更快……且更高效,需要的输出 tokens 更少」。

这种「暴力美学」式的升级,让我想起了早期 Google 的做派——用技术说话,用实力碾压。

这次,Google 能凭借 Gemini 3.1 Pro,继续惊艳世界吗?

 

01

「.1」版本号的野心

 

细心的人可能注意到, 这是 Google 第一次使用「.1」这样的增量版本号 。

在软件行业,「.1」通常意味着重要的功能更新,但不是颠覆性的架构重构。Google 选择 3.1 而不是 4.0,其实在向市场传递一个信号:

我们还有更大的招数没出 。

Gemini 3.1 Pro 与自家和友商模型数据对比|图片来源:9to5Google

 

从企业客户的反馈来看,这个「.1」的威力确实不小。

Databricks 的 CTO 报告说,新模型在 OfficeQA 基准上取得了「同类最佳的结果」。Cartwheel 的联合创始人更是直接指出,模型对 3D 变换的理解有了「显著提升」,解决了 3D 动画管道中长期存在的旋转顺序问题。

Box AI 的企业评估数据更加直观:在医疗和生命科学领域,准确性从 47% 跃升到 67%;在法律任务中,准确性从 57% 提升到 74%。

这些不是实验室里的跑分游戏,而是真实商业场景中的能力验证。

 

02

AI 竞争进入「推理纪元」

 

如果说过去一年的 AI 竞争是「谁更聪明」的比拼, 那么 Gemini 3.1 Pro 的发布策略,可能正在把游戏规则拉向「谁更划算」 。

在大多数基准测试中,Gemini 3.1 Pro 都领先于 Anthropic 的 Opus 4.6 和 OpenAI 的 GPT-5.2,但价格却是 Opus 4.6 的一半。这种性价比优势,对于大量使用 AI API 的企业客户来说,吸引力是致命的。

一位开发者在社区分享了一个令人印象深刻的案例:他用单个提示让 Gemini 3.1 Pro 构建了一个功能完整的 Windows 11 风格网络操作系统,包括文本编辑器、Python 终端、代码编辑器、文件管理器、绘画应用和可玩游戏。

这种「一个提示解决复杂问题」的能力,正是推理模型的核心价值所在。

当然,Gemini 3.1 Pro 也不是完美无缺。在 GDPval-AA 这个衡量真实世界经济任务的基准测试中,它的得分为 1317 分,明显低于 Anthropic Sonnet 4.6 的 1633 分。这提醒我们,即使是最先进的 AI 模型,在处理复杂现实问题时仍有局限性。

Gemini 3.1 Pro 在设计上也更有「品味」了|图片来源:Google

 

VentureBeat 的分析师一针见血地指出:「Google 加倍投入核心推理和 ARC-AGI-2 等专业基准,表明 AI 竞赛的下一阶段,将由能够思考问题的模型赢得,而不仅仅是预测下一个词。」

这句话道出了当前 AI 竞争的本质变化。

过去两年,我们见证了 ChatGPT 从「会聊天的 AI」进化为「会推理的 AI」,见证了 Claude 从「安全的助手」变成「深度思考的伙伴」。

现在,Google 用 Gemini 3.1 Pro 告诉市场: 推理能力才,是 AI 模型的核心护城河 。

从技术角度看,Gemini 3.1 Pro 与 Google 的新型代理开发平台 Antigravity 深度集成,开发者可以切换不同的「推理预算」,在速度和准确性之间找到平衡。这种灵活性,可能是未来 AI 应用开发的新范式。

从商业角度看,Google 选择「性能翻倍、价格不变」的策略,实际上是在用规模经济对抗技术溢价。这背后的逻辑很简单:我有足够的资源和效率优势,可以用更低的成本提供更好的服务。

这场 AI 军备竞赛,正在从「技术炫技」回归到「商业本质」。

Gemini 3.1 Pro 的发布,让我想起了那个曾经「不作恶」的 Google——用技术改变世界,用创新降低门槛。虽然这家公司在过去几年经历了不少争议,但在 AI 这个关键战场上,它似乎正在找回自己最擅长的节奏。

当然,OpenAI 和 Anthropic 不会坐以待毙。这场推理能力的军备竞赛才刚刚开始。

展示量: 5

困在 AI 里的工作:你没有解放,而是有了更多「任务」

作者| Moonshot

编辑| 靖宇

大概在一个世纪前,经济学家凯恩斯曾满怀希望地预言,随着技术进步和生产力的爆发,人类的孙辈将面临的最大挑战是如何打发闲暇时光, 每周只需工作十五小时 。

当 AI 出现时,我们以为这个愿景要实现了。

过去我们认为,如果 AI 能在 1 分钟内完成过去需要 1 小时的工作,那么我们就会多出 59 分钟的休息或深度思考时间。

但根据 HBR 最新发布的一篇文章,通过对美国一家科技公司 200 名员工长达 8 个月的研究发现,事实并非如此。

AI 并没有让工作消失,它反而让工作变得更密集、更黏稠、更无孔不入 。

 

01

空隙的消失

 

在 AI 介入工作流之前,我们的工作时间其实是有空隙的。

在这家被 HBR 观察的公司里,没有人挥舞着皮鞭强迫员工加班。事实上,公司甚至没有强制要求使用 AI。

但 AI 介入工作流后,员工们开始在午餐时、在会议等待的间隙、在电梯里,掏出手机向 AI 发送一条条工作相关的指令。

结果员工的工作节奏变快了,承担的任务范围变宽了,工作时间也延长到了更多时段。

为什么?因为 AI 太好用了,也太容易使用了。

在过去,开启一项工作是有「物理阻力」的。面对一个空白文档,你需要思考、调动意志力、收拾好环境……这种阻力像一道天然的堤坝,将工作与休息隔开,因此也催生了难以攻克这种阻力的「拖延症」。

在 AI 普及前,「拖延症」是非常大众的一个工作现象|图源:圆圈心理

就像你不会在吃外卖或等电梯时突然开始写代码,因为后者更像是一个严肃的、需要整块时间的工作。

但 AI 抹平了这道堤坝。

输入一行提示词几乎没有任何心理成本, 它感觉不像是在工作,更像是在聊天 。

于是,工作顺着这些被 AI 凿开的裂缝,渗透进了原本属于生活的每一个缝隙。这就是 HBR 文章中所描述的 「边界模糊」 。

而当「开始工作」变得毫无摩擦力时,「停止工作」就变得异常艰难。

那种在工作中自然的呼吸感消失了,取而代之的,是一种持续不断的、低强度的认知介入。

这就如同即时通讯工具普及后,「下班」的概念在事实上消亡了。只要手机还有电有网,我们就默认处于在线状态,我们在工作上做的事情越来越多,时间密度越来越大。

人被直接暴露在「持续输出」的状态里,不再有过渡和等待 。

 

02

任务的扩张

 

更深层的疲惫,来自于一种名为「任务扩张」的诱惑。

HBR 的研究观察到,AI 的介入,让 产品经理开始写代码,研究人员开始做工程,设计师开始干运营 。

因为 AI 提供了一种虚幻的「全能感」,它填补了技能的鸿沟。许多员工抱着「试一试」的心态,不知不觉地承担了那些原本属于他人、或者原本会被外包、甚至原本会被放弃的任务。

这听起来很励志,像是在职场完成了「斜杠青年」的自我成长。但站在社会学的冷峻视角下, 这其实是一种极度的自我剥削 。

德国社会学家哈特穆特·罗萨在《新异化的诞生》中曾精准地指出,现代社会的逻辑是「动态稳定」。就像在跑步机上,你必须不断加速奔跑,才能仅仅保持在原地。

写于 AI 爆发前期的书,却预言了 AI 带来的结果|图源:豆瓣

 

AI 加剧了这种跑步机效应。当「能不能做」的门槛被技术拉下来后,「做不做」就变成了新的压力。

如果一个产品经理能够用 AI 生成代码,那么在组织的隐性期待中,他就应该去写。

而且效率的提升,会直接转化为任务扩张,生产力红利也会被制度吃掉。

于是,职责的边界被溶解了。每个人都在向外扩张,每个人都变得更加忙碌。HBR 将这种现象称为「 隐形的工作量蔓延(Workload Creep) 」。

而且这种忙碌往往是低质量的,工程师们不得不花更多时间去审查、修正那些由半吊子同事用 AI 生成的代码。

这种蔓延在最初的兴奋期过后,留给员工的是深深的倦怠和判断力的枯竭。

你以为你在利用 AI 的无限能力,其实是 AI 带来的无限可能性 , 在透支你有限的精力 。

 

03

速度的暴政

 

为什么明明有了能节省时间的工具,我们却不敢休息?

这里,罗萨的理论为 HBR 的观察提供了一个视角:技术加速并没有带来时间的富余,因为「任务量的增长速度」永远高于「效率的提升速度」。

换言之, 技术加速从来不会自动转化为时间盈余,它往往引发的 , 是社会节奏的整体上调 。

这些节奏的变化,在快递、外卖这种以速度为指标的行业中最为明显,但也早已渗透进了其他行业。

在 HBR 的案例中,工程师们发现,虽然写代码快了,但他们并没有因此早下班,因为社会系统立刻用更多的需求填满了节省下来的时间。

比如以前一天能做两个方案,现在 AI 帮你做到了十个,那么十个瞬间就成了新的及格线。

在这个层面, AI 并没有消灭内卷,反而强化了它 。我们陷入了一种「速度的暴政」。在这种语境下,慢不仅是低效的,更近乎一种不道德。

这种加速不仅仅是物理时间上的,更是心理层面的。

当机器的时间逻辑成为默认节奏,人类就被迫向这种节奏靠拢。原本属于人的迟缓、犹豫、酝酿,就会被视为低效甚至不专业。

于是速度开始具有道德含义,慢开始变成工作能力不足,这也就是罗萨所说的「速度的暴政」。

 

04

新型的异化

 

而当 AI 可以在后台 24 小时并行处理任务时,你也得被迫进入一种「多线程并发」的状态,开始一边开会,一边让 AI 生成摘要,一边让另一个 AI 跑数据。

这种状态被 HBR 描述为「 有了伙伴的错觉 」。你觉得有人在帮你,这种势头推着你往前走。

但代价是你从一个「创造者」变成了一个「监控者」。

角色切换了,工作量并未减少,你需要不断地切换上下文,去检查 AI 的产出,去警惕它的幻觉。这种「监工」的角色,需要的不是流淌的心流,而是时刻紧绷的警惕。这往往比自己亲手做还要消耗心神。

科技加速最终将传递为生活节奏的加速|图源:新异化的诞生

用罗萨的理论来说, 我们正在经历一种由技术发展所带来的新型异化 。

马克思时代的异化,是工人与产品分离。

AI 时代的异化,是人与「过程」分离 。

我们不再从头到尾地从泥土中调和、捏造、烧制一个罐子,我们只是对着空气喊了一句咒语,罐子就出现了。

而罗萨认为,人类与世界的「共鸣」往往产生于克服阻力的过程。

当你费尽心力斟酌一个句子的措辞,或者在一行行代码中排查出一个隐藏极深的 Bug 时,你与你的工作对象之间存在着一种「摩擦」。这种摩擦是痛苦的,但克服它的过程,也是你将自我的生命力注入对象的时刻。

AI 让我们失去了与物质世界「摩擦」的质感,也失去了在克服困难中确认自我的机会 。

那么,我们注定要在这条跑步机上跑死吗?

面对这种困境,HBR 在文章的最后,试图给出一剂解药:

建立「AI 实践规范」 。

他们建议企业设立「刻意的停顿」,进行「任务定序」,回归「人本联结」。

这些建议无疑是理性和善意的,但在一个以增长为信仰的商业世界里,要求企业主动降速,这是是一种悲壮的理想主义。

但作为个体,我们必须看清这其中的荒谬。

如果我们无法定义什么是「足够」,那么任何工具的进步,最终都会变成加在我们身上的枷锁 。

我们需要重新夺回那种「笨拙」的权利。在某些时刻,刻意地拒绝 AI 的辅助,去忍受空白文档的煎熬,去忍受查找资料的繁琐,去忍受思考的停滞。

凯恩斯预言的悠长假期并未如期而至。

而现在,连我们脑中的休息时间都已难以暂停。

展示量: 5

10 亿美元融资!李飞飞「世界模型」公司估值 50 亿美元

作者|桦林舞王

编辑| 靖宇

今年的「机器人春晚」的余震,依然在舆论空间回响。在春晚舞台上积极亮相的机器人产品,多少让人误以为它们可能即将在一夜之间,进入千家万户。

和春晚一样火热的,是投资人对于「具身智能」这个风口的狂热。

根据彭博最新消息, 「AI 教母」李飞飞的 World Labs 刚刚拿到了 10 亿美元融资 ,投资者包括 Autodesk、英伟达等一系列巨头。

这波巨额融资,明示巨头押注「具身智能」和「世界模型」的决心。

 

01

从 10 亿到 50 亿,「AI 教母」估值狂飙

 

时间倒回到 2024 年,World Labs 刚刚完成 2.3 亿美元融资,估值 10 亿美元。当时外界对这家公司的认知还停留在「李飞飞的新创业项目」层面。

短短一年半时间,估值飙升 5 倍。这种增长速度即使在 AI 领域也极其罕见。更值得关注的是投资方阵容: Autodesk 砸下 2 亿美元,Nvidia、AMD、a16z、Fidelity 等巨头纷纷入局 。

「这不是基于『AI 教母』个人光环的投资,而是资本对 World Labs 及其世界模型方向的重新定价。」一位接近交易的投资人透露。

估值狂飙的背后,是 World Labs 产品化进展的加速。

World API 界面|图片来源:World Labs

今年 1 月,公司正式推出「World API」,为开发者和机器人公司提供大型世界模型的 API 接入。业内人士称之为 「3D 空间推理的 GPT-2 时刻」——一个标志性的产品化节点 。

更关键的是,World Labs 找到了明确的商业化路径。

Autodesk 首席科学家透露,两家公司将在专业创意工具层面深度整合:「客户可能先用 World Labs 的世界模型构建办公室布局草图,然后在 Autodesk 技术中钻研桌子设计等具体细节。」

这种 B2B 合作模式让投资人看到了清晰的变现前景。

不同于 OpenAI 面向 C 端用户的策略, World Labs 选择了更加务实的企业服务路线 。

 

02

世界模型的「GPT 时刻」来了吗?

 

如果说 ChatGPT 开启了大语言模型的「iPhone 时刻」,那么世界模型何时迎来自己的高光时刻?

从技术角度看,世界模型已经具备了突破的基础条件。

World Labs 的核心产品 Marble 能够从图像、视频或文本创建空间一致、高保真的 3D 世界,并且支持 USD 等标准 3D 格式输出。 这意味着生成的内容可以直接导入游戏引擎、设计软件,而不是像其他视频生成模型那样只能输出「黑盒」结果 。

World Labs 的 Marble Labs 中可以创建空间|图片来源:World Labs

Nvidia CEO 黄仁勋的判断更加直接:「世界基础模型对物理 AI,就像大语言模型对生成 AI 那样基础。」这个类比暗示,世界模型可能成为下一代 AI 应用的底层操作系统。

但理想与现实之间依然存在鸿沟。李飞飞多次强调,数据与评测是具身智能 scaling 的根本约束。与大语言模型可以用海量文本数据训练不同,世界模型需要的是, 高质量的 3D 空间数据和物理交互数据,这些数据的获取成本和标注难度都要高出几个数量级 。

World Labs 与光轮智能等公司的合作,正是为了解决「规模化评测」这个关键瓶颈。如何构建一个可靠的仿真环境来评测机器人的空间智能水平,这个问题比生成漂亮的 3D 场景要困难得多。

 

03

13 亿美元涌入,世界模型赛道火热

 

World Labs 的 10 亿美元融资并非孤例。2026 年初至今,已有超过 13 亿美元融资流向世界模型初创企业。

这场竞赛的主要玩家包括:AMI Labs(由 Yann LeCun 创立,寻求 30 亿欧元估值)、World Labs(李飞飞创立,50 亿美元估值)、以及 Google DeepMind 的 Genie 3 项目。每一家都代表着不同的技术路线和商业化思路。

资本的疯狂涌入反映了一个共识:AI 正在进入新的发展阶段。 如果说过去几年是「语言智能」的天下,那么未来的竞争焦点将转向「空间智能」和「 具身智能 」 。

Google 前阵推出的 Genie 3 能做出直接操作的 3D 空间,让 Unity 等引擎公司股价暴跌|图片来源:Google

但也有分析师提出警告:「从 10 亿美元到 50 亿美元估值的增长,反映了投资者对前沿 AI 交易的激烈竞争,也突出了 AI 领域估值变化有多快——即使公司还没有大规模商业化产品。」

这种估值泡沫的担忧并非空穴来风。

World Labs 目前的主要产品还处于 API 阶段,距离大规模商业化应用仍有距离。关键问题是:投资者想看 World Labs 如何将科学雄心转化为清晰的商业采用。

 

04

从实验室到产业,路还有多远?

 

尽管融资金额创下纪录,但 World Labs 面临的挑战依然严峻。

技术上的挑战。世界模型要真正应用于机器人和自动驾驶, 不仅要生成视觉逼真的场景,更要保证物理规律的准确性 。一个轻微的物理建模错误,在真实世界中可能导致机器人撞墙或自动驾驶事故。

成本也是难题。训练世界模型需要海量算力和数据, Nvidia Cosmos 已经用 9000 万亿个 tokens 从 2000 万小时真实世界数据中训练,这样的成本投入只有少数巨头能够承担 。World Labs 如何在成本控制和性能提升之间找到平衡点?

生态挑战可能是最大的挑战。与大语言模型有丰富的下游应用不同,世界模型的生态还处于起步阶段。开发者需要时间学习新的 API 接口,企业客户需要时间验证 ROI,这个过程可能比预期更长。

不过,Autodesk 2 亿美元的投资释放了一个积极信号—— 至少在专业设计领域,世界模型已经找到了愿意买单的客户 。这可能成为 World Labs 商业化的重要突破口。

说到底,这场 10 亿美元融资背后的真正赌注,不是李飞飞的个人声誉,而是整个 AI 产业向物理世界拓展的历史趋势。无论 World Labs 能否兑现 50 亿美元的估值期望,世界模型这个方向本身已经不可逆转。

当 AI 开始理解空间、模拟物理、预测未来,我们离真正的「人工通用智能」也就更近了一步。

只是这一步,可能比想象中更昂贵,也更漫长。

展示量: 9

「机器人春晚」的 B 面:我们在欢笑中,接受了新型的人机关系

作者| Moonshot

编辑| 靖宇

1996 年,春晚舞台上抬上来一个巨大的橘皮箱子。

那是由冯小刚编剧、蔡明与郭达合作的小品《机器人趣话》。在那部作品里,中年单身汉郭达为了排解寂寞,购入了一款名为「菜花」的人形机器人。他拿着遥控器,让机器人在「善解人意」与「热情奔放」间切换的设定。那些人机之间生硬的交互,引发全场爆笑。

1996 年小品《机器人趣话》|图源:春晚

 

但此后三十年,春晚再也没有出现一款让机器人做绝对主角的现象级作品。

直到去年,机器人扭秧歌的节目《秧 Bot》,让机器人进入了大众视野,具身智能也成为过去一年最火热的话题和年度关键词。

当时的节目是一次技术亮相,到今年更像是一场系统展示。

而在 2026 年的春晚上,从小品到伴舞,从武术表演到广告植入,机器人已经快成春晚主角了,几乎渗透进整场晚会的多个板块,它们的存在感从未如此强烈。

 

01

从「人演机器人」

到「机器人演人」

 

如果说三十年的《机器人趣话》我们是在看「人演机器人」,那么今年,我们在《奶奶的最爱》里看到的是「机器人演人」。

小品剧情并不复杂,领先时代三十年的蔡明老师已步入老年,因孙子疏于回家,干脆买了一排机器人来给自己赛博养老。

结果真孙子回家后,发现机器人不仅能替奶奶端茶倒水,还给奶奶提供了不少情绪价值。面对「养儿不防老,养机器人才防老」的奶奶,为了争夺宠爱,真孙子试图证明自己比那堆冷冰冰的铁块更有价值。

还是个四胎家庭|图源:春晚

 

然而,这却成了一场全方位的惨败。

论端茶倒水,机器人又快又稳准狠;论才艺展示,机器人轻松完成原地后空翻,孙子只能原地打转;论情绪价值,孙子讲的笑话尴尬冷场,而机器人接入了云端大模型,每一个梗都精准地踩在奶奶的笑点上。

这一段密集的包袱,也是小品向大众展示了如今机器人的控制能力、语义理解能力、情绪识别能力的集合。

这小品里机器人居然负责提供「情绪价值」|图源:春晚

 

看到这里,大多数父母大概会感慨年轻人疏于尽孝,而年轻观众则能反将一军,心想「老了有机器人养也不错」。

但小品反转来得比包饺子还突然:真孙子面对的其实是假奶奶,是真奶奶照着自己 1:1 打造的高仿生人形机器人。

当那个有着蔡明老师的面孔、却在微表情中透出一丝机械僵硬感的「假奶奶」被推向舞台中央时,全国观众在那一瞬间,或许都跌入了同一个恐怖谷里。

而真正的细思恐极之处在于,原来孙子是场上唯一的人类。他和大模型斗嘴,和电机比身手,忙活了半天,是在争取另一个机器人的认可。

尽管最后小品落脚在奶奶和孙子斩不断的亲情上,但《奶奶的最爱》这个小品的 B 面则是:

当一个人选择用机器人替代亲人,是思想上的主动行为。而当亲人无法识别机器人和真亲人,这是技术完成度的结果。前者是伦理选择,后者是技术能力。

表演当然经过编排,但舞台呈现的是一种熟悉的技术趋势。机器人能听懂梗并给出回应配合动作,这不就是今年最火的「具身智能」吗?

面对机器人,全方位惨败的人类|图源:春晚

 

从技术角度看,「真假奶奶」映射的正是数字人建模与具身智能结合的终极方向。过去的数字人停留在屏幕里,只能跟你对话。今年的舞台假设它走下了屏幕,拥有了物理身体,拥有了行为执行能力。

而为了这个几十秒的镜头,松延动力在仿生人脸内部塞进了 32 个微型电机,配合铂金硅胶皮肤,实现了面部微表情的像素级复刻,但在技术力之外,这个小品的思辨力才更令人玩味。

「真孙子认不出假奶奶」才是最可怕的|图源:春晚

 

三十年前的《机器人趣话》里,人类在想象机器人如何服务生活,最终郭达的感叹是「机器人还是不如人。」

而到了今年,蔡明的感慨是「机器人永远代替不了我的大孙子。」

听起来很温情,但你细品,人类面对机器人时的自信越来越少。我们似乎唯一拿得出手的只剩感情和关系,而非能力。

而在极致的算力和仿真技术面前,人类的这种情感连接,是否还有不可替代的真实性?这恐怕是今年春晚开场的第一个小品,留给我们最硬核的一个设问。

如果说《奶奶的孙子》是理念上的思辨,随后下一个节目《武 Bot》就是技术力的呈现。

 

02

从秧歌到武术

 

今年的宇树,从秧歌跳舞直接进化到了武术,这个难度可是翻跟斗级的翻倍。

秧歌讲究的是节奏一致、步伐稳定、队形整齐,那是工业自动化的美学,本质上考验的是重复动作的精度与同步控制。

但武术不一样。武术要求高速下的瞬态稳定。我们看到人形机器人完成了一系列高动态动作:翻跟头、舞棍棒、托马斯回旋、下踢腿、醉拳……

双足机器人的接触面极小,真正支撑身体的,往往只是脚底那几十平方厘米的面积,它们得在极短时间内完成姿态剧烈变化,还要接住自己的重心,还要与人类互动,保持节奏一致。

今年机器人都杂技了|图源:春晚

 

在机器人武术队的表演里,也并非想象中的整齐划一,在一些高难度动作下,机器人群中总有一两个感觉重心不稳。但每一次落地后,都会发现它们在有意识地调整重心,让整场表演以零失误完美收官。

这些让观众提心吊胆的瞬间,恰恰是全场最「凡尔赛」的技术展示。

两年前的秧歌,那是「死」的,机器人的每一步都写在代码里,哪怕地上有个小坑,它可能照样踩下去然后摔倒。

而今年的武术表演是「活」的,那些「虚晃一枪」,是机器人的大脑在毫秒级的时间内感知到了脚底打滑或者落地姿态的偏差,然后瞬间计算出几百牛顿的力矩补偿,强行把身体「拽」回平衡状态。

特别值得一提的是那个「醉拳」的晃动感。这个设计是机器人故意引入不稳定性,再大秀自己的稳定能力。

这套醉拳狠狠拿捏了观众的「预期违背」心理|图源:春晚

 

这就是强化学习在舞台上的具象化。

强化学习的核心在于让系统在大量模拟环境中反复试错,过去一年,这批机器人在虚拟的仿真世界里经历了数以亿计的「赛博摔跤」。它们在模拟环境中反复试错,学会了在冰面、碎石、斜坡等各种极端扰动下保持稳定。

换句话说,去年的机器人是「排练」出来的。现在这批机器人,是「练」出来的。

如今的机器人允许出现偏差,也是因为它具备了在毫秒内自我修正的鲁棒性。这是为什么今年春晚的《武 Bot》比《秧 Bot》看起来更有「呼吸感」

正如宇树科技创始人王兴兴在采访中所说:「今年机器人在快速奔跑中完成了穿插变阵和武术动作,这种高动态、高协同的集群控制技术是全球首次亮相。」

而节目最后登场的那台高约两米的宇树 H2,更像是一场公开的「秀肌肉」。

大机器人一登场,又燃又恐惧|图源:春晚

 

体型放大带来的挑战远大于视觉冲击。身高接近两米,意味着更高的质量中心位置。质量中心越高,平衡难度指数级上升。任何微小的姿态偏差都会被放大成更大的倾覆风险。

但那台大家伙在舞台中央完成了高幅度摆臂和快速转身。关节灵活,动作干脆,没有拖泥带水,甚至比前面的武 Bot 更显流畅,有种从 60Hz 上到 120 Hz 高刷的即视感。

这说明其大尺寸关节驱动单元在保持高爆发力的同时,散热设计和转矩密度已经达到了新的工业临界点。

它证明了中国机器人不仅能做小做巧,也能做大做强,既能举重若轻,又能落地生根。

 

03

从实验室到春晚

 

在两个以机器人为主角的节目结束后,整场春晚的「有机量」并没有降低,相反,它们退居配角,开始成为许多节目的背景板,也像是从实验室走向生活圈的隐喻。

在沈腾和马丽的微电影里,害怕上不了春晚的沈腾,最终和机器人排练了一场歌剧,于是机器人代替了沈腾,开始全方位展示自己的能力,从盘核桃到烤烤肠,从叠衣服到取快递,最后一堆明星围着它,唱着「机器人走进千万家,科技造福你我他」。

这个节目的转折比包饺子还硬啊!|图源:春晚

 

宇树科技、魔法原子、银河通用、松延动力……这四家机器人企业齐登马年央视春晚,组成了一片「机器人海」,在四川宜宾的分会场里,我们看到机器人和人类一桌吃着火锅唱着歌,在枯燥的广告口播环节里,主持人也在不同时段提到了不同品牌的机器人。

它们开始像空气一样,渗入到了这场国家级晚会的毛细血管里。

如果说龙年我们看的是热闹,那么马年我们看的是生活。2026 年春晚极力渲染了机器人在家庭、娱乐场景的应用。这也标志着行业目标从 B 端正式向 C 端的拓展。

那这一年,中国机器人行业到底经历了什么?

首先是供应链的「白菜化」奇迹。

这一点我们不得不服气国内的产业链整合能力。过去这一年,在深圳、在杭州、在上海,无数个工厂硬生生把这些精密零部件做成了标准件。现在一台性能不错的机器人,价格已经下探到了普通中产家庭咬咬牙能买得起的区间。

其次是「软硬结合」的质变。

国内的机器人大厂一方面走「具身智能」的路线,让机器人更懂语义理解,能更好和人类交互,同时在硬件上通过强化学习,让自己的动作更自然、更流畅,更稳定。

今天的春晚舞台上,机器人已经具备初步的物理能力与感知能力。它们还远未成熟,但已经不再是笑料。

G1 完成了运动性能的新突破|图源:宇树科技

 

站在 2026 年的岁首,回望 1996 年。

三十年前,观众看到《机器人趣话》,看到的是人类对人机关系的戏谑、调侃和不信任。那时的机器人,是人类对未来的一种笨拙想象,是需要我们去「扮演」的异类。

三十年后,当观众们开始为机器人的表演揪心,为它的后空翻鼓掌,甚至在看到小品里的机器人卖萌时,产生了「我也想有一台」的想法时,观念的齿轮已经悄然转动。

从 1996 到 2026,中国春晚用了三十年时间,把一部科幻片演成了纪录片。我们不再靠「想象」来填补技术的空白,而是开始直面「人机共生」的现实。

而一旦直面,就必须回答那个终极问题:谁控制谁?

春晚不需要回答,甚至不能回答。在舞台上,我们只展示技术最无害、最喜庆、最合家欢的一面。

笑声和掌声穿越了三十年|图源:1996 年春晚

 

我们为宇树机器人的后空翻鼓掌,为松延动力仿生人的微表情惊叹,既然解决不了「人会被替代」的焦虑,那不如先看它们包顿饺子,把秧歌扭得震天响。

这种用欢笑来消解未知恐惧的本能,或许,和三十年前坐在电视机前看《机器人趣话》的那些观众,并无二致。

展示量: 11

追赶 OpenClaw,Manus 把 Agent 塞进了聊天框

作者| 桦林舞王

编辑| 靖宇

赶在春节当晚,Manus 也赶上「AI 春运」,推出了新功能。

当地时间 2 月 16 日,Manus 宣布推出了一个新功能——Manus Agents。简单说,就是把 Manus 的完整能力塞进了 Telegram,用户扫个码就能在聊天窗口里直接跑复杂任务。

语音消息、图片处理、多步骤任务执行,全都可以在一个聊天框里完成。Manus 把这当作一次重要的产品发布来做,博客写得很认真,FAQ 也很详细。

但如果你过去几个月一直在关注 AI Agent 领域的进展,看到这个发布,第一反应可能不是「哇」,而是「嗯?这不就是 OpenClaw?」

Peter Steinberger 的 OpenClaw,从一开始就运行在 WhatsApp、Telegram、Discord 甚至 iMessage 里。

而就在 Manus 发布这个功能的前一天, Steinberger 宣布加入 OpenAI 。

两个 Agent 领域最耀眼的项目,在几乎同一个时间节点,做出了两个截然不同的选择。这件事本身,可能比任何一个新功能都更值得关注。

 

01

Manus,住进了聊天框里

 

先详细说说 Manus Agents 到底能做什么。

启用流程非常简单:打开 Manus 工作台里的 Agents 标签,扫一下二维码,Telegram 里就多了一个对话窗口。整个过程不到一分钟,不需要命令行,不需要配置文件,也不需要 API Token。

但这不是一个简化版的聊天机器人。Manus 反复强调的一点是: 这是完整的 Manus,不是「lite 版」 。它背后跑的是同一套推理引擎和工具链,能执行多步骤任务——从网络调研、数据处理,到生成结构化报告和 PDF 文档,所有结果都直接在聊天里交付。

现在可以在 telegram 里用 Manus 的代理功能|图片来源:Manus

 

几个具体的使用场景可以让你感受到它的能力边界。

你可以发一条语音消息,让它帮你设置一个定时任务:每周一早上自动检查你的邮箱,汇总本周会议安排和需要准备的材料,然后把摘要推送到聊天里。这意味着你甚至不需要主动去问它,它会按照约定自动工作。

你也可以拍一张产品照片发给它,附一句简短的 brief,它会帮你产出一份结构化的发布方案——包括场景创意和视觉方向建议。或者直接发一张自拍,让它生成几个不同风格的头像变体。

在模型选择上,Manus 提供了两个档位:Manus 1.6 Max 适合需要深度推理和创意的复杂任务,Manus 1.6 Lite 则用于快速问答和轻量任务。你还可以设定 Agent 的沟通风格——简洁、结构化,还是更随意的对话体。

从产品完成度来说,Manus Agents 确实做得很扎实。它把一个原本需要打开浏览器、登录网站才能用的工具,变成了聊天框里的一条消息。对大多数用户来说,这种交互方式的摩擦几乎为零。

可以使用多项 Manus 的核心技能|图片来源:Manus

 

Agent 的终极形态,不应该是一个需要你专门打开的网站或 App,而是嵌入你已经在用的工具里,随叫随到。这个道理大家都懂,但 Manus 是认真把它产品化了。

不过,有意思的地方也正在这里。

Manus 是在被 Meta 收购之后,才推出这个功能的。而在它之前,OpenClaw 已经用开源的方式在各种 IM 平台上跑了好几个月,积累了近 20 万 GitHub Stars,用户创建了超过 150 万个 Agent。

这形成了一个微妙的反差:去年 3 月 Manus 刚出来的时候,它给整个行业带来的冲击是巨大的——一个 AI Agent 能自己开浏览器、自己完成复杂任务,这在当时是非常先锋的。

但不到一年的时间,这种冲击感已经被大量同类产品稀释了。现在 Manus 做的事情,看起来更像是在补课,而不是在引领。

这不是说 Manus Agents 不好。恰恰相反,它可能比大多数同类方案都更成熟、更完整。但当你成为一家大公司的一部分,产品节奏就不可避免地会变。你需要考虑稳定性、合规、大规模用户的体验,这些都会让你慢下来。

 

02

两个 Agent 明星,两种选择

 

真正让我觉得值得写这篇文章的,不是 Manus 的新功能,而是它和 OpenClaw 在几乎同一时刻做出的两个截然不同的选择。

Manus 的故事大家已经很熟悉了。

去年 3 月发布,迅速走红,8 个月做到超过 1 亿美元的年化收入,然后在去年底被 Meta 以传说中超过 20 亿美元收购。整个团队加入 Meta,技术将被整合进 Facebook、Instagram 和 WhatsApp。据报道,扎克伯格对这笔交易的推进速度极快,从接触到签约只用了十来天——在数十亿美元级别的收购中几乎闻所未闻。

OpenClaw 的故事则完全不同 。

OpenClaw 的作者加入 OpenAI|图片来源:Peter Steinberger 博客

 

Peter Steinberger 是一个奥地利独立开发者,之前创办过 PSPDFKit,一家在开发者圈子里很有名的文档软件公司。他在去年底用大概一个小时搭了 OpenClaw 的第一个原型,然后开源发布。项目迅速爆红,在全球开发者社区传播,在中国也获得了大量关注——百度甚至计划在其主 App 里直接接入 OpenClaw。

Steinberger 在旧金山跟各大 AI 实验室都聊了一圈,最终选择加入 OpenAI。他在博客里说得很直白:「我想改变世界,不想建一家大公司,加入 OpenAI 是把这个东西带给所有人最快的方式。」OpenClaw 将转入一个基金会,继续作为开源项目存在,OpenAI 承诺持续支持。

Sam Altman 在宣布这件事的时候说:「未来将是极度多 Agent 的,支持开源是其中重要的一部分。」

一个选择了被收购,换取全球 30 亿用户的分发能力;一个选择了加入模型公司,换取最前沿的研究资源。

两条路都通向规模,但路径和代价完全不同。

 

03

独立 Agent 公司的窗口期,

可能正在关闭?

 

把这两件事放在一起看,一个更大的问题浮出水面——Agent 作为一个独立的商业赛道,它的窗口期还有多长?

过去一年,Agent 是整个 AI 行业最热的方向。无数创业公司涌入这个赛道,试图在大模型和终端用户之间建立一个新的应用层。逻辑很简单——大模型公司提供智能,Agent 公司把智能变成能干活的产品。

但 Manus 和 OpenClaw 的结局提供了一个冷峻的参照:这个赛道上跑得最快的两个项目,一个被大平台吃掉了,一个的创始人被大模型公司吸走了。

这意味着,Agent 公司面临的不只是技术竞争,更是一个结构性的「夹心」困境——上游的模型公司在往下走做 Agent(OpenAI 招 Steinberger、Anthropic 做 Claude Code 和 Computer Use、Google 做 Project Mariner),下游的超级平台在往上走买 Agent(Meta 买 Manus)。

中间的独立 Agent 公司,要么足够快地建立起自己的用户壁垒和收入规模,要么就会成为大玩家的收购标的或人才来源。

这里面还有一层更深的含义。

如果 Agent 真的成为人和 AI 交互的主要方式,那大模型公司现在精心打造的 AI 对话框—— ChatGPT 、Claude.ai、Gemini——会不会变得不那么重要 ?

Agent 融入各种工具已经是必然趋势|图片来源:Manus

 

如果你的 Agent 就在微信、Telegram、Slack 里,你需要什么就直接说,Agent 在后台调用哪个模型你根本不在乎,那模型公司不就变成了基础设施提供商?就像你用美团外卖的时候,不会关心它跑在哪个云上一样。

这是一个「管道化」的风险。模型公司变成电信运营商,Agent 平台变成互联网应用,利润和品牌认知都被应用层吃掉。

但这个类比也有不准确的地方—— 带宽已经高度同质化了,模型能力目前还没有 。用户会很快感知到「换了个差的模型,我的 Agent 变蠢了」。

模型公司自己也不甘心只做管道——OpenAI 招 Steinberger、Meta 买 Manus, 本质上都是在抢夺 Agent 层的控制权 。

更可能出现的局面是分层:重度用户和开发者只需要 API,不需要聊天界面;大量普通用户仍然需要一个开箱即用的入口,不会自己搭 Agent。

纯做 chatbot 这个中间态,确实会越来越尴尬,但完全被管道化还需要时间 。

回到 Manus Agents 这个功能本身。它是一个好产品,但它更大的意义在于,它代表了一种行业共识的形成——Agent 的未来不在独立的网站或 App 里,而在你已经每天打开的那些工具里。

只是, 当这个共识已经形成的时候,谁来做这个 Agent,可能比 Agent 本身做什么更重要 。Manus 选择了 Meta,Steinberger 选择了 OpenAI,留给独立 Agent 创业公司的空间,正在以比大多数人预期更快的速度收窄。

对大模型公司来说,真正的问题不是「要不要做 Agent」,而是「如果我不做,别人做了,我会不会变成下一个电信运营商」。

这个恐惧,可能比任何技术趋势,都更能解释当下正在发生的一切。

展示量: 8

爆火的 OpenClaw 创造者,正式加入 OpenAI

作者|桦林舞王

编辑| 靖宇

 

如果你关注 AI 圈子的新闻,这两天大概率被一只龙虾刷了屏。

当地时间 2 月 15 日,OpenAI CEO Sam Altman 在 X 上宣布: OpenClaw 的创造者 Peter Steinberger 正式加入 OpenAI,将负责推动「下一代个人智能体」的研发 。

Altman 毫不吝啬地称他为「天才」,说他「对未来高度智能的 Agent 之间如何互动、如何为人类做有用的事,有着大量令人惊叹的想法」。

而 Steinberger 自己在博客里写得很坦率: 「我完全可以把 OpenClaw 做成一家巨大的公司。但说实话,这对我来说并不兴奋。」 他说自己是个 builder,不想再重复一次创业的游戏——他已经花了 13 年做过一次了。

这个决定的背后, 是一个关于「独狼开发者如何搅动整个 AI 产业」的故事 。

 

01

从周末项目到全球现象

 

Peter Steinberger 并不是什么素人。这位奥地利开发者早在 2011 年就创办了 PSPDFKit——一个专注于 PDF 处理的开发工具公司。这家公司被 bootstrap 做到了全球领先,产品覆盖超过 10 亿台设备,2021 年获得 Insight Partners 1.16 亿美元投资时,Steinberger 选择了退出。

退出之后的三年,他经历了严重的职业倦怠。旅行、治疗、寻找自我——直到 2024 年,AI 浪潮重新点燃了他的热情。他开始疯狂地 tinkering,先后做了 43 个项目,直到 2025 年 11 月的一个周末,他用大约一个小时,把 WhatsApp、Claude Code 和一些工具「粘」在了一起,做出了一个能真正帮你处理事情的 AI 个人助手原型。

这就是后来的 OpenClaw——一个能管理你的邮件、日历、航班值机,甚至替你跟保险公司交涉的自主 AI Agent。 它最初叫 Clawdbot,名字是 Claude(Anthropic 的 AI)和龙虾的「Claw」的双关。

项目的爆发速度令人咋舌。短短几周内,它在 GitHub 上收获超过 14.7 万颗 Star,单周访问量突破 200 万。

龙虾 logo 和「爪子手势」迅速成为 meme。更关键的是,一个叫 Moltbook 的「AI 专属社交网络」的病毒式传播 ,让 OpenClaw 彻底破圈——那是一个只有 AI Agent 能注册和发帖的平台,260 万个 AI 机器人在上面疯狂互动。

 

02

改名三次,终于「Open」

 

不过,OpenClaw 的成名之路并不平坦。事实上,它经历了可能是开源史上最戏剧性的品牌危机。

2026 年 1 月 27 日,Anthropic 的法务团队找上门来。理由很简单: 「Clawdbot」和「Clawd」在发音上跟「Claude」太像了,可能导致用户混淆。 从商标法的角度看,这是一个完全合理的保护行为——如果放任不管,未来任何人都可以援引先例。

Steinberger 没有抗争,几个小时内就把项目改名为「Moltbot」——molting 是龙虾蜕壳的意思,寓意成长。这个名字很有诗意,但灾难随之而来。

在他切换 GitHub 用户名和 X(推特)账号的大约十秒钟空隙里,加密货币骗子以闪电般的速度抢注了旧账号。 他们利用项目原有的公信力发布虚假代币 $CLAWD,导致不知情的用户遭受损失。Steinberger 后来回忆说自己「几乎要哭出来」,甚至想过直接删掉整个项目。

三天后,「Moltbot」这个名字也被放弃了——它实在「叫不顺口」。1 月 30 日,项目最终定名为 OpenClaw。这一次,团队做足了准备:完成了商标检索,买下了所有相关域名,写好了迁移代码,甚至用了类似「曼哈顿计划」级别的保密措施来防止骗子再次突袭。

一周之内换了三个名字,同一套代码,同一个团队,品牌却几乎碎了一地。 Reddit 上的 r/LocalLLM 社区把这称为「开源史上最快的三连改名」。

 

03

为什么选择 OpenAI?

 

OpenClaw 的爆火让所有大厂都坐不住了。Steinberger 在 Lex Fridman 三个多小时的播客访谈中透露, Meta 和 OpenAI 都向他抛出了橄榄枝,两家公司的 CEO 亲自下场谈判 。

他和 Zuckerberg 的互动很有意思。

Zuckerberg 通过 WhatsApp 联系他,第一次通话前说「等我十分钟,我在写代码」。之后的一周里,Zuckerberg 一直在亲自试用 OpenClaw,不断发消息说「这太棒了」或者「这太烂了,你得修一下」。 两人甚至花了十分钟争论 Claude Opus 和 GPT Codex 哪个更好 。

OpenAI 这边则拿出了更实际的筹码——与 Cerebras 合作带来的超级算力。而 Steinberger 自己也承认,他一直是 OpenAI Codex 的「最大免费广告商」。

最终,Steinberger 选择了 OpenAI。

在他看来,这是把 Agent 带给所有人的最快路径。他在博客里写道:「 我的下一个使命是,做一个连我妈都能用的 Agent 。这需要更广泛的变革,更多关于安全性的思考,以及最前沿的模型和研究。」

而 OpenClaw 不会消亡。Altman 承诺,项目将以开源基金会的形式独立运营 ,OpenAI 会持续支持。Steinberger 也在着手将其转为基金会架构,让它继续成为「黑客、思想者和想要掌控自己数据的人」的聚集地。

Steinberger 在博客官宣的小作文:

简而言之:我将加入 OpenAI , 致力于让所有人都能使用智能体。OpenClaw 将转为基金会,并保持开放和独立。

过去一个月简直像一场旋风,我做梦也没想到我的游乐场项目会引起这么大的反响。网络世界又开始热闹起来了,看到我的作品激励了世界各地这么多人,真是太有趣了。

无数的可能性向我敞开,无数人试图引导我走向不同的方向,给我提建议,问我如何投资,或者我打算做什么。说这一切令人不知所措都算是轻描淡写了。

我最初探索人工智能的目标是获得乐趣并启发人们。而现在,龙虾正在席卷全球。我的下一个目标是打造一款连我妈妈都能使用的智能体。这需要更广泛的变革,更深入地思考如何安全地实现,以及获取最新的模型和研究成果。

是的,我完全能理解 OpenClaw 未来发展成一家巨头公司的可能性。不过,这对我来说并没有什么吸引力。我本质上是个实干家。我已经经历过创建公司的整个过程,投入了 13 年的时间,也学到了很多东西。我想要的是改变世界,而不是打造一家大公司,而与 OpenAI 合作是实现这一目标最快的途径。

我上周在旧金山与各大实验室进行了交流,接触到了相关人员和尚未公开的研究成果,这在各个方面都令我深受启发。我要感谢本周与我交流的所有人,并感谢他们提供的机会。

对我来说,OpenClaw 保持开源并拥有自由发展的空间一直至关重要。最终,我认为 OpenAI 是继续推进我的愿景并扩大其影响范围的最佳平台。我与 OpenAI 的同事们交流越多,就越发清楚地意识到我们拥有相同的愿景。

OpenClaw 社区充满活力,令人着迷。 OpenAI 也做出了强有力的承诺,让我能够全身心投入其中,并且已经为该项目提供了赞助。为了让它拥有更完善的架构,我正在努力将其打造为一个基金会。它将继续为思想家、技术专家以及所有希望掌控自身数据的人们提供一个交流的平台,目标是支持更多模型和公司。

我个人非常兴奋能够加入 OpenAI ,成为人工智能研发前沿领域的一份子,并继续与大家一起建设未来。

利爪即法律 。

回头来看,从一个周末的 vibe coding 实验,到 Anthropic 的商标争议,到加密骗子的疯狂围猎,再到 Meta 和 OpenAI 的 CEO 亲自争抢——OpenClaw 的故事几乎是 2026 年 AI 产业的一个缩影。

技术在加速,人才在流动,而 Agent 正在从「有趣的实验」变成所有大公司的核心产品方向。

Steinberger 说:「未来将是极度多 Agent 的。」他选择了 OpenAI 来实现这个愿景。至于这个决定是对是错,大概只有那只龙虾知道答案。

毕竟, The claw is the law 。

展示量: 7

文章分页

上一页 1 … 7 8 9 … 825 下一页

Copyright © 2024 51蛙吖蛙 – 3D社交空间