中非共和国:历史性联合选举后巩固和平成果至关重要
联合国毒品和犯罪问题办公室:废物走私加剧有毒污染并危害公众健康
用插件「杀死」软件?!Anthropic证明:最不懂技术的人,能造出最专业的企业AI工具
就在刚刚,Anthropic 用一个插件系统,重新解锁了 AI Agent 的新玩法,也将再次「杀死」一批 AI 创企。
2 月 24 日,Anthropic 更新了 Claude Cowork 插件系统,用户可以从零开始定制化打造 AI 插件,将 Claude 能力直接以工具包的方式融入工作流中,打开整个企业级定制化插件市场。
不仅如此,Anthropic 还同步配置了插件创造、使用以及管理的工具平台。Claude 会通过提问,引导用户定制技能、设置相关命令并接入 MCP 协议。所有新增的插件功能都可在新增的自定义菜单中查看、管理。团队和企业管理员还可以直接访问公司配置的插件以及 MCP 控制功能。
目前,Claude 可以接入企业已使用的工具,例如 Slack、Salesforce 和 Excel,Claude 的插件可以在 Cowork 以及任何基于 Claude Agent SDK 构建的系统中运行。所有插件的用户体验更新均面向所有 Cowork 用户开放。
这次,Anthropic 还一口气推出 10 个横跨 HR、运营、设计等领域的官方插件,它不仅是示范 AI 插件玩法,更是在设定标准、圈定企业级 AI 应用的边界。
正当大家开始卷谁的模型更聪明、或者更好用的时,Anthropic 用一套插件系统告诉大家,谁的 Agent 能够以最简单、最直接的方式深入到企业里,才是赢得 Agent 大战中的关键。
一、零基础定制企业级插件,经验即是产品
如果说 Agent 1.0 版本是让一个全知的人担任多面手的不同职位,那么,如今 Claude 则是教公司最有经验的销冠如何零基础搭建适合自家公司的经验包,然后让公司里的每一个人都能用上。
由最懂公司基因的一线员工亲手打造的工具,天然适配自家业务与客户画像,其复用率和提效空间远非外部通用方案可比。这也是 Anthropic 盯上企业私有插件市场的关键原因之一。
目前,用户既可以通过官方模板快速配置相关插件,也可以从零开始深度定制。系统会以对话式引导的方式,通过主动提问协助用户完成技能编排、指令设定与 MCP(模型上下文协议)连接器对接,大幅降低技术门槛。
所有这些配置都会集中在一个名为「自定义」的全新统一菜单中,该菜单整合了插件、技能和连接器,方便个人管理员在一个地方查看和管理所有内容。
企业级管理员还会拥有对企业级的插件更高的控制权,可搭建组织专属的私有化插件市场,对接私有 GitHub 仓库作为插件源,完成更精细化配置与自动化的团队级部署。
不仅如此,插件还和与其他生态应用深度集成。官网显示,Google Workspace(日历、云端硬盘、Gmail)、Salesforce Slack、DocuSign、Apollo、LSEG(伦敦证券交易所集团)、S&P Global 等主流企业工具都已推出适配 Claude 的连接器,甚至不少企业已经为共同客户开发了插件。
除此之外,Claude 本身也实现了跨应用的上下文贯通。它不再仅仅是调用工具,而是可以像人类员工一样在 Excel 与 PowerPoint 之间无缝流转。比如说,它在 Excel 中完成数据分析后,自动将洞察转化为 PowerPoint 演示文稿,保持端到端的上下文连贯性。在用户侧,Claude 的体验也有了更简洁直白的变化,斜杠命令(/command)现在可以通过结构化智能表单呈现,运行「生成报告」或「搭建仪表盘」等复杂工作流时,用户只需填写一份简洁的业务简报。
Claude 还通过新增的 OpenTelemetry 支持,管理员可实时追踪团队对新插件的采用率、工具调用成本及全流程的活动数据,让 AI 投入产出比首次变得可量化、可优化。
目前,Anthropic 已首批上线十大垂直场景的插件模板,从投行交易的智能合规审查,到财富管理的组合分析,再到将资深 HR 的经验编码为自动化新人带教系统。每款都由对应领域的一线从业者参与设计,确保每个 workflow 都基于真实业务痛点,以便更多知识工作者能够充分利用 Cowork 的价值。
新增插件包括:
- 人力资源:简化人事运营流程——招聘、入职、绩效考核、薪酬分析和政策指导。
- 设计:通过生成评论框架、撰写用户体验文案、运行可访问性审核和构建用户研究计划来加速设计工作流程。
- 工程:简化日常工程工作流程,例如编写站会总结、协调事件响应、构建部署清单和起草事后分析报告。
- 运营:管理核心业务运营,包括流程文档、供应商评估、变更请求跟踪和运行手册创建。
- 品牌声音(由 Tribe AI 提供):分析您现有的文档、营销材料和对话,将您的品牌声音提炼成清晰、可执行的准则。
- 财务分析:支持每位财务分析师所需的基本工作流程,从市场和竞争对手研究到财务建模和 PowerPoint 模板创建和质量检查。
- 投资银行:加快交易流程,包括审查交易文件、构建可比公司分析和准备推介材料。
- 股票研究:简化研究工作流程,例如解析盈利报告、根据新的指导意见更新财务模型以及撰写研究报告。
- 私募股权:通过审查大量文件集、提取标准化财务数据、模拟场景以及根据投资标准对机会进行评分,为交易搜寻和尽职调查提供支持。
- 财富管理:帮助顾问分析投资组合,识别偏差和税务风险,并大规模生成再平衡建议。
二、企业级插件的价值被重新定义
此次插件系统更新主要是还是为了能够让 AI 扎入企业深处,将 AI Agent 能力转化为企业的底层基础设施,打通技术与业务之间的壁垒。
通过对话式交互,业务人员得以将个体的领域 know-how 即时封装为可复用的企业数字资产。而模型自动完成的部署编排,则让这种「经验即服务」的能力能够直接为企业业务带来最明显的效率提升。
对于企业来说,定制私有化 AI 插件,会是当下较为简单将组织知识 AI 资产化的方式之一。企业得以最高效的方式,将散落在员工大脑中的隐性经验,转化为组织内的生产力提升。
而且,集中式 AI 定制意味着更少的瓶颈、更快的部署和复用一致的高效工作流程。「我们使用 AI」和「我们依靠 AI 运行」之间的差距正在缩小。
并且,企业还可以通过追踪数据,以结果导向,直接看出定制的 AI 插件是否好用,可以及时调整方向。
事实上,企业级私有插件的本质是专业级代理,而专业级代理将催生更自主的 AI 应用,而Claude 如今将AI生态系统正从模型层向上构建。一旦企业开始构建自己的内部插件,Claude 也开始从一个工具,转向一个平台。 Cowork 显然也不再是一个独立的应用程序,而是现有 AI 技术栈之上的一个集成层,一个工具集装箱。
插件只是当下 Anthropic 先推出的一个基础工具形式。在 Anthropic 看来,插件是最简单的文件系统,可以直接轻量化移动、复用,也是其降低 Agent 走入企业门槛的关键一步。
Anthropic 这一手棋,看似只是新增了一个「技能商店」,实则是向所有只做「功能包装」的 AI 创业公司敲响了警钟。当大模型厂商亲自下场开放「工作流编排权」,那些仅仅把基础 AI 能力打包成简易工具、缺乏深度业务思考的 Agent 产品,将会随时被取代。
这也是为什么此前 Anthropic 推出法律代理时,会引发全球软件和服务类股票 8300 亿美元的抛售潮。

广为流传地有关Claude对软件公司的影响梗图|图片来源:X
尽管Anthropic 企业产品负责人 Scott White 曾对此回应表示,Claude 的目标是为客户带来更好的结果,而不是取代客户。但当「造工具」的门槛被头部公司归零,人人都可以创造产品,创造工具时,「造生态」的窗口正在对初创公司缓缓关闭。
智能体手机,抢跑 2026 的「方法论」
2026 年春节,AI 行业的「全民曝光位」再次落在晚会与红包上。
「春晚互动」的形态被重新定义:除夕夜的互动入口中,各类 AI 趣味玩法与「抽红包/抽科技礼」被深度融合,打包成更轻量化的「顺手一用」体验,让用户在参与春晚福利的同时,自然感受 AI 的便捷性。
这个显眼的变化在于,厂商争夺的核心已从「引导用户下载 App」,转向「让 AI 成为用户随手可用的能力」。这一趋势在 2025 年底已有清晰信号,努比亚 M153 豆包手机助手技术预览版,就率先将 AI 能力深度融入日常使用场景,成为早期探索者。

豆包配合春晚推出多种 AI 互动的玩法 | 图片来源:豆包
火山引擎拿下「2026 年总台春晚独家 AI 云合作伙伴」的身份,本质上属于一次面向全国观众的能力验收:多模态大模型与云计算要同时扛住节目呈现、互动玩法与直播流量的峰值压力。
同一时间,红包大战把属于硬件厂商的「入口焦虑」推到台前:腾讯旗下元宝 App 在春节期间开启 10 亿元现金红包活动,百度也推出 5 亿元红包并与自家 AI 产品绑定。报道把这轮竞争概括为围绕 AI 的下一代流量入口争夺。
这也解释了为什么「云侧能力」会在春晚节点被反复强调:当用户在同一时段集中涌入、互动频次飙升,底层的弹性与时延直接决定体验是否成立。并且,字节系的打法更直观:除了「云侧承压」,豆包也被明确写进了春晚互动叙事里,强调「边看边用」的即时性。
01
从 GUI Agent,到 AgentOS:
原生智能体时代的到来
从年初大火的 GUI Agent,到如今 LUI 与 GUI 的混合形态产品的演进,都说明随着端侧大模型能力的爆发,移动计算正迎来第四次范式转移:即「原生智能体」时代。
在这一新范式的引领下,几乎所有人都意识到:手机操作系统正在从管理 App 的管家,升级为直接响应用户意图的超级代理。
用户只需表达最终目标,系统级智能体便能自动拆解任务、编排工作流、跨应用调用服务。这就是 AgentOS 的核心概念。
而春晚这种全民同时在线的场景,恰好把「智能体要能接住高并发、还要能把任务跑下去」推到了台前。
进一步看,「云 + 大模型 + 终端」可以拆成一条更直观的流水线:云侧负责高并发推理与弹性资源调度,尤其适合春晚这类峰值场景;平台侧提供从 Agent 开发到部署的一站式能力边界;终端侧把模型能力变成日常可调用的系统能力,需要操作系统级权限、稳定入口与一致的交互。
这条链路之所以重要,是因为它把「可展示」推进到「可用」:观众看到的互动效果,背后依赖的是云侧与工具链的工程化;而用户愿不愿意持续使用,则取决于终端是否把 AI 变成了低门槛入口。放到 2 月 16 日除夕夜的春晚互动里,这种差异更明显:从「在直播间参与一次互动」走向「日常在手机里反复用」,中间隔着系统层的稳定入口与执行闭环。
在这条链路中,位于手机端侧的合作,始终有一个很具体的着力点:即把「模型能力」压到离用户最近的位置。

从行业的角度来看,「nubia M153 豆包手机助手技术预览版」的意义更像一次系统级验证窗口,重点在证明手机形态可以承载系统级智能体体验,但同时也展现出智能手机这一平台的复杂特征:它既是离真实用户最近的入口,也是端侧实现模型对用户复杂指令执行能力的最优平台之一。
02
把智能体做进手机系统:
从「可展示」到「可用」
「AI 手机元年」的讨论,通常会陷入参数、模型榜单、端侧算力的对比,但对普通用户而言,更有效的口径其实是产品形态门槛:在智能手机这个游乐场上,谁能最先将 AI 能力打包,交付成用户能快速理解、开箱即用的体验,谁就能最先建立起 AI 手机的护城河。
首先,系统级入口要足够浅,侧键/语音/任意界面唤起要常态可用;同时具备跨 App 的链式执行能力,能自动跳转多个应用完成查票、比价、下单、批量操作等任务;在当前阶段也需要同时具备「点击模拟」和「系统工具调用」两条路径,前者覆盖更多界面,后者提升复杂任务效率。
以 nubia M153 豆包手机助手技术预览版发布之后,用户在小红书等平台上分享最多的使用场景为线索,其实我们已经能看到来自用户对 AI 智能体手机的设想中,所能提炼出的核心需求:
首先是用户最常分享的 AI Agent 手机使用场景——跨平台比价下单:用户在社交媒体被种草后,提出「全平台比价下单」,助手会在多个电商平台搜索同款、对比价格与规格、自动领券并选择低价商品推进下单;涉及支付等高敏感环节时,系统会提示用户手动完成,用来降低误操作风险。
其次,很多用户也会关注 Agent 在手机操作系统环境下,能否完整执行长链任务:在执行过程中,用户仍可继续正常使用手机,助手在后台推进任务。这类「并行」更接近系统级能力的价值点。
最后是同样至关重要的系统能力打通:目前豆包手机已经支持用户直接通过语音,在系统相册内直接调用助手进行修图,体现多模态能力在系统内的落点。
这些其实都指向了另一个更重要的判断:智能体手机的门槛集中在「稳定执行」与「风险可控」两件事上,回答能力更多是入场券。当执行涉及登录态、验证码、人机验证、支付确认等高风险环节,系统往往需要更谨慎的交互策略。春晚实时互动也在用类似方式「教育用户预期」:红包、抽奖可以自动跑,关键节点需要用户接管。
显然,智能体手机的落地已经成为手机行业下一阶段竞争的必答题。
原因很直接:模型能力在快速扩散,差异化越来越难长期维持;入口与系统整合深度开始成为决定性变量。
春节节点的集体营销把这一点放大了:当巨头用红包与晚会把 AI 推向大众,「谁能让用户在手机上更低成本地用起来」,会比「谁的单纯评测分数更高」更能决定用户的留存及心智。
与此同时,海外变量也在把竞争推向「系统层」。
Apple 与 Google 在联合声明中确认了多年的合作框架:下一代 Apple Foundation Models 将基于 Google 的 Gemini 模型与云技术,用于未来 Apple Intelligence 特性,其中当然也包括备受用户期待的、更个性化的 Siri。这类合作传递的信号很清晰:系统级 AI 的竞争会外溢到平台层,云与模型会与 OS 绑定得更紧。
另一条线来自 OpenAI 的硬件路线:OpenAI 预期最早在 2026 年下半年披露相关设备。专用 AI 硬件的推进,会在 2026—2027 形成一个外部压力:手机厂商需要在窗口期内证明「智能体」体验可以在现有终端上跑通并规模化。
03
可检验的胜负手
回到国内厂商,真正的胜负手可以落成三条可检验指标:
首先是系统层整合深度:唤起入口是否足够稳定,后台并行是否可持续,工具链调用是否可控。
其次是生态协同效率:与云平台、模型方、行业伙伴、交付伙伴协作的速度,决定了从 demo 到可复制方案的周期。
最后,是能否实现稳定可长期复用的风险控制策略:支付、账号、交易等高风险环节怎样设计「用户接管点」,既影响体验上限,也影响产品能否长期稳定演进。
在这个框架下,努比亚依托硬件厂商的优势,与字节跳动合作发布 nubia M153 豆包手机助手技术预览版的意义,更接近「先行样本」。它把系统级智能体放进了可以真实售卖、真实使用的手机形态里,验证了跨 App 自动操作、系统相册打通、记忆与 Pro 模式等能力在工程上有落点。同时,多方报道都强调它目前属于技术预览版与工程样机,主要面向开发者与尝鲜人群。
这两点放在一起,反而能更稳地支撑「领先」的叙事:领先体现为更早把系统级智能体推到真实用户环境中做验证,进而更早暴露问题、迭代路径与生态协作方式。
努比亚 CEO 倪飞曾公开表示:他认为 AI 手机的发展趋势不可逆,并把「开放合作」视为推进路径。当海外平台级合作与专用硬件路线同时加速,国内厂商要在同一时间段面对「系统层竞争」与「入口层竞争」的双重挤压,智能体手机的落地速度自然会成为关键变量。
对于春晚这样的舞台来讲,这次合作让 AI 云与大模型从行业叙事进入大众语境。对火山引擎而言,春晚属于一次峰值场景的公开检验;但对手机厂商而言,智能体手机还需要把「可执行」做成日常可复用的系统能力,并把入口问题拉回到系统层。
在这一点上,选择与豆包携手的努比亚,已经率先给出了自己的回答。
当春晚红包把 AI 推向全民,真正的竞争才刚刚开始:模型更聪明只是起点,能让用户在手机上低成本「用起来」才是关键。
*头图来源:努比亚
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
给扫地机器人装上「眼睛」:寻找家庭场景里的 FSD 时刻
当我们谈到「机器人」时,你第一个想到的是什么?
最近两年,从硅谷到深圳,无数拥有顶尖 AI 人才的团队都在试图造出一个「像人一样」的机器人。但随之而来的尴尬是:这些身价不菲的人形机器人,除了在演示视频里翻跟头,依旧还很难走进普通人的生活。
工程师们攥着最先进的 AI 锤子,却迟迟找不到现实世界里的第一颗钉子。
与此同时,在一个看似不那么「性感」的角落,扫地机器人这个「不像人」的品类,却已经默默服务了数千万家庭。但经过十年的参数内卷,它也撞上了天花板:用户不再满足于它只是一个会动的吸尘器,而是期待它成为一个能自主搞定一切的「L4 级」管家。
这恰恰是具身智能最好的试验场。 当人形机器人还在苦寻场景时,家庭清洁这个充满了挑战的「钉子」,正在等待被最先进的 AI 锤子敲响。

从「工具」到「伙伴」
「你真的需要一台家庭清扫机器人吗?」
面对这个问题,你如果在小红书或者抖音按照关键词「扫地机器人」搜索,大概率可以看到一些用户真实分享的「劝退指南」。
这些吐槽可以整体分为两大类:
第一类我称之为「清洁强迫症」。简单来说,就是认为扫地机器人由于形态、机械结构等原因,总会在墙角、床底或者沙发边缘漏掉一些打扫不到的卫生死角。
由此,这些用户往往又会引申出一种有趣的对比逻辑:「几千块钱买的智能家电,清洁质量远不如两百块钱的家政阿姨。」
第二类用户的槽点不同,在他们看来,智能扫地机器人显然可以提供「家政阿姨」们无法提供的价值:节约时间和精力,实现无人自动清扫。但是,在现有的技术范式下,要求扫地机器人做到 L4 自动驾驶般的「零接管」清扫,同样不是一件容易的事。
于是,相关分享里就出现了用户上班前打开机器人,下班回家时发现要么被客厅到阳台、浴室间的门槛挡住,要么就是被一根掉在地板上的充电线「卡死」。
甚至,在一些极端的案例里,因为扫地机器人没有识别出地板上的宠物粪便,就直接一遍又一遍地反复碾过,结果自然是越扫越脏……隔着这段文字描述,相信各位也都可以感受到主人回家时的崩溃。
这些崩溃瞬间指向了同一个期待:消费者需要的不再是一个需要人去伺候的「工具」,而是一个能独立解决麻烦的「伙伴」。
在这个阶段,单纯的堆砌参数已经失效了。对于用户而言,一万帕的吸力参数,远不如「一个月不用管」的体验来得性感。于是,这个行业的产品研发,亟需一种更新的「解题思路」。
最近,我们抢先拿到了一台云鲸新一代活水洗地机器人产品 JX。通过和产品团队的沟通,我们发现在新一代产品上,体现出了云鲸团队对这一品类的全新思考。
在 JX 这台设备上,云鲸将拖布结构升级成了全新的「履带式」结构。相比传统的「滚筒式」拖布结构,宽幅履带接触地面的面积扩大了7倍,既能提升清洁效率,也提升了对顽固污渍的清洁效果。此外,机身中集成的清水、污水双水箱,配合 60°C 水温的活水喷淋系统,让 JX 不需要返回清洁站,就可以「边拖地、边清洁拖布」,解决了过去「越拖越脏」的用户痛点。

集成了履带式结构、活水喷淋系统的云鲸 JX 洗地机器人 | 图源:云鲸智能
值得一提的是,在 JX 系列上,云鲸把过往只有高端旗舰产品里才会搭载的履带方案进行了下放,希望把好用的能力变成「标配」,也显示出云鲸在大众市场用更好体验进行竞争的决心。
此外,在感知和避障能力方面,云鲸 JX 同样搭载了逍遥系列同款「双目视觉+AI」的方案。相比传统的激光雷达或者单目方案,双目方案能显著提升障碍物类别、精度的识别。不仅可以识别到不到0.1mm的纸巾,也能「认出」干湿垃圾,自动切换清洁模式,做到遇干吸尘、遇湿拖地。云鲸研发团队告诉我们,新架构的最终目标,是从有限障碍物迈向「万物识别」。
给扫地机装上「小脑」和「双眼」
可以看出,云鲸 JX 此次升级的两大核心——从圆盘到活水履带,从激光雷达+规则到双目+AI,分别对应着机器人「干活能力」与「思考能力」的双重质变。
对于前者,难点不只是改变「拖布」的形状,还包括机器人内部涉及到水路、雷达、主控板等一系列布局的推倒重来。云鲸的研发团队在沟通中告诉我们,在研发过程中,团队最常听到的一句话就是「谁又把我的电动螺丝刀拿走了?」这背后,是一个典型的「螺丝壳里做道场」的死磕过程 。
而最终的研发结果,就是团队不仅让新一代的 JX 从圆盘升级到了活水履带,拥有更大清洁面积的同时,也可以在内部布置了一套「冲洗系统」,包括:搅拌电机、刮条、16个喷淋孔,解决了脏污挂壁、水路堵塞等机身自清洁的老大难问题,机器人的自清洁能力得到了质的飞跃。
现在,机器人不仅能把地拖干净,更具备了「长期维持自身卫生」的能力——这才是无人化清洁的基础,否则「清洁工」自己脏了,还怎么服务家庭?
而就后者而言,云鲸选择死磕「双目+AI」方案,就像是特斯拉几年前坚持纯视觉路线一样,是一次基于第一性原理的豪赌 。
我们可以简单回顾一下,扫地机器人自诞生以来,在感知层面经历过的三个阶段:
- 1.0 红外时代: 初代产品只能基于红外、超声波等传感器进行实时避障,基本靠撞——撞上了就知道拐弯。在那个阶段,扫地机更像是一个「昂贵但不实用的玩具」。
- 2.0 地图时代: 2016 年前后,激光雷达下放,让机器人终于有了「全局建图」的能力。它知道哪里是墙、哪里是路,导航精准度大幅提升。但面对散落的数据线、突兀的门槛或是宠物的排泄物,依靠「规则」运行的雷达依然是盲的——它只能看到障碍物的轮廓,却不知道那是什么 。
- 3.0 具身时代: 2024年,云鲸率先发布了搭载双目视觉方案的逍遥001,为行业带来了全新「双目视觉+AI」的新思路。
而这套「双目视觉+AI」方案,其实是和自动驾驶、具身智能行业同源的技术模块。

云鲸洗地机器人选择的「双目+AI」技术路线 | 图源:云鲸智能
首先,尽管摄像头硬件成本看似更低,但它能提供远比激光雷达更丰富的输入信息(颜色、纹理、语义)。再结合云端大模型,机器人不再是死板地执行「避障」指令,而是开始「理解」它所处的环境——它知道这是一团需要绕开的线,而不是一堵墙;它知道这是宠物粪便,必须远远躲开 。
这种从 Rule Based 到 AI Based 的范式转移,是通往具身智能的必经之路 。
当机器有了更灵巧的手(履带)和更聪明的眼(视觉),它才真正具备了从「工具」进化为「伙伴」的资格。毕竟,我们期待的家庭伙伴,不应该是一个只会按地图跑圈的机器,而应该是一个懂得如何在复杂家庭环境中生存、决策的智能体。
自动清洁的终局,一定是具身智能
最后,让我们把视线拉高。既然家庭清洁注定是具身智能要敲下的第一颗「钉子」,那么云鲸在这颗钉子上敲出的火花,就不止是「把地扫干净」这么简单。
当行业还在争论机器人该不该长得像人时,以云鲸为代表的清洁科技公司已经率先拿到了一张通往未来的「船票」。对于云鲸而言,他们遵循的是一种「反向定义」的逻辑:不预设机器人的形态,而是由场景来定义形态。在当下的家庭环境中,新一代洗地机器人模拟人类「先收纳整理再清洁」的习惯:先感知环境,再把零散的物品挪开,最后还能避开障碍物、钻进床底以及越过门槛。这恰恰就是现阶段最完美的「具身」形态。
而从押注「双目视觉+AI」的下一步技术路线可以看出,当下的扫地机大战,本质上是一场「以战养战」的数据突围。
具身智能最大的门槛除了硬件,还有「泛化性」——即机器人在面对未知环境时的应变能力。家庭场景私密、非标且极其复杂,没有任何一家公司能通过模拟仿真获得足够真实的训练数据。

家庭清洁,也许是具身智能行业的第一颗「钉子」 | 图源:云鲸智能
这正是云鲸模式的护城河所在:通过在激烈的市场竞争中卖出产品,云鲸获得的不止是营收,更是海量的、真实的家庭环境数据。这些数据是训练具身智能模型最稀缺的燃料,也是依靠非商业手段无法触达的宝藏。每一次机器在复杂的家庭环境中完成避障、越过门槛,实际上都是在对机器人的「大脑」和「小脑」进行一次分布式的训练与迭代。
所以,当我们重新审视云鲸这家公司时,不妨把扫地机器人看作是一个阶段性的载体。
它既是当下的生意,也是未来的基石。比起宏大的「重构家庭劳动」,云鲸现在的路径显得更为务实——利用扫地机这个品类,在真实的家庭环境中,一步步验证并打磨那些未来机器人所必需的感知与控制能力。
在这个逻辑里,当我们再回头看云鲸当下死磕视觉方案、布局机械臂、积累海量数据等行为时,这也许就是它们在为未来的机器人打磨那把最锋利的锤子。
正如云鲸创始人张峻彬所言:看一家企业,不是看它现在卖什么,而是看它愿意在哪个方向下重注。
当那个真正的「具身智能时代」到来时,只有那些真正在地板上摸爬滚打过、真正看懂过千万个家庭的「清洁工」,才最有可能进化为那个最聪明的「家庭管家」。
为什么所有人都觉得 MiniMax、智谱「太贵了」?
作者|桦林舞王
编辑| 靖宇
2 月 20 日,港股马年第一个交易日,恒生科技指数跌了近 3%,一片惨淡。
但两家公司完全无视大盘——智谱暴涨 42.72%,市值冲破 3200 亿港元;MiniMax 涨超 14%,市值同样突破 3000 亿港元。
一天之内,智谱涨出来的市值就相当于一个 B 站 。
这两家公司,一家上市刚 43 天(MiniMax),一家上市刚两个月(智谱)。它们的市值已经超过了携程、快手、京东,正在逼近百度。
社媒评论区一方面认为,两家公司涨得太夸张——MiniMax 上市 43 天涨了 487%!一方面,是充满了「没上车」的悔恨。
根本原因,可能是人们没有看明白,这波 FOMO 背后,国内 AI 公司上涨的逻辑,是什么?
01
反常识:Token 涨价 30%,还被抢空
理解这轮暴涨的钥匙,不在股价本身,而在 8 天前的一则涨价公告。
2 月 12 日,智谱发布了一份价格调整函:GLM Coding Plan 套餐价格结构性上调, 整体涨幅自 30% 起 ,同时取消首购优惠。海外版更猛——Coding Plan 订阅价格提高 30%-60%,API 调用价格直接翻倍。
这在半年前是不可想象的。
2024 年下半年到 2025 年初,国产大模型打价格战打得头破血流:字节豆包报价低到 0.0008 元/千 Token,阿里通义千问 GPT-4 级模型降价 97%,智谱自己也曾把 GLM-4-Plus 降了 90%。
但这一次,涨价 30% 之后,套餐上线即售罄。
国产 AI 编程模型的付费套餐被抢空,这在行业里还是头一次。涨了价还限购——这说明需求弹性极低,用户宁可多掏钱也不能没有。
中金公司在研报里用了一个精准的描述: 行业定价逻辑正从「流量消耗」转向「算力价值变现」。
MiniMax 这边的情况也类似。
2 月 12 日发布的 M2.5 模型,定位为全球首个 Agent 场景原生设计的生产级模型。随后上线的 Highspeed 极速推理版本,同样引发了开发者抢购。
两家公司几乎同时出现了同一个现象: 不是卖不出去需要降价,而是供不应求需要限购。
02
700 倍 PS,在赌什么?
先说一个让人不太舒服的事实。
MiniMax 2025 年前 9 个月的营收是 5344 万美元。按当前 3000 亿港元(约 385 亿美元)的市值算, PS(市销率)超过 700 倍 。智谱的情况也类似——这不是传统意义上任何估值模型能合理化的数字。
对比一下:Anthropic 最新估值约 3800 亿美元,年化收入已经超过 20 亿美元,PS 大约 190 倍。OpenAI 估值约 8500 亿美元,年收入据报道约 130 亿美元,PS 约 65 倍。
智谱和 MiniMax 的估值倍数,比 OpenAI 高出一个数量级。
如果市场不是疯了,那它一定在赌一个非线性增长的故事。
这个故事是什么?
笔者觉得核心不在于「模型变好了」这种显而易见的叙事,而在于一个更深层的结构性变化:
Token 的消耗模式正在从「人类按次使用」,变成「Agent 持续燃烧」。
一个程序员用 AI 编程助手,一天可能消耗几十万 Token。但一个 Agent 7×24 小时不停运行——写代码、搜索资料、执行任务——一天的 Token 消耗可能是千万级。而在可见的未来,一个人背后可能同时跑着 10 个、甚至 100 个 Agent。
虎嗅上有一篇文章把这个逻辑说得很直白: 「供给是线性的,需求是指数的。」 每一次模型能力的提升,都会解锁新的使用场景,打开 10 倍的 Token 消耗空间。人会睡觉,Agent 不会。人一天工作 8 小时,Agent 一天工作 24 小时。
这意味着大模型公司的商业模式, 可能正在从「按次付费的软件」,变成一种「持续消耗的能源」 。
如果这个逻辑成立,那用传统的 PS 来估值就不合适了——你不会用 PS 倍数去给一家电力公司估值。你看的是产能、负荷率、定价权、以及需求增长曲线。
智谱涨价 30% 后被抢空,证明的就是定价权。
03
被忽略的另一面
但笔者也想说一些不那么乐观的部分。
MiniMax 的招股书里有一个数据:2025 年前 9 个月,收入同比增长 170% 的同时,净亏损 5.12 亿美元。通俗地说, 卖 1 块赔 10 块 。虽然亏损在收窄,但距离盈亏平衡还很远。
更关键的是,这两家公司的收入结构揭示了一个隐忧。
MiniMax 超过 70% 的收入来自海外,其中最大的产品 Talkie(星野)是一款 AI 社交应用——这类产品的用户粘性和付费转化率,在全球市场都还没有被验证。智谱的 Coding Plan 虽然火爆,但编程助手市场的天花板有多高?当 Claude、Gemini、GPT 都在同一个赛道上时,定价权能维持多久?
OpenAI 最新一轮融资估值 8500 亿美元,背后站着亚马逊、软银、英伟达、微软这样的战略投资者——这些投资者投的不仅是财务回报,更是 AI 基础设施的入场券。智谱和 MiniMax 的股东名单里虽然也有阿里、腾讯、米哈游,但体量和战略深度不在同一层级。
所以,700 倍 PS 定价的,是 Agent 时代全面到来后的 Token 消耗量。 这是一个正确的方向,但它发生的速度——是明年,还是五年后——会极大地影响这个估值是否能站住脚。
还有一个容易被忽略的事实。
这波暴涨发生在港股,而港股 AI 板块的一个特殊之处在于: 可投标的极度稀缺 。想要在港股配置中国 AI 纯正标的,选项只有智谱、MiniMax,以及刚上市不久的海致科技。
当大量资金涌入一个极窄的赛道时,估值溢价会被急剧放大。这不完全是基本面驱动的,也有资金结构的因素。
04
Token 经济学的黎明?
回到一开始的问题:这两家公司贵吗?
如果你用今天的收入去衡量,贵得离谱。
但如果你接受一个前提—— Token 正在成为一种新的基础设施级消耗品 ——那当前的定价逻辑就变得可以讨论了。
一个值得思考的对比:2000 年,中国移动的用户才 8000 多万,短信业务刚刚起步,谁也说不清移动通信的商业模式最终长什么样。但到了 2007 年,中国手机用户突破 5 亿,移动互联网彻底改写了所有人的生活方式。
Token 可能正处在类似的拐点。
当模型能力足够强、Agent 开始大规模部署、每个人背后有几十个 AI 在不间断地消耗算力——那时候 Token 的供需关系,会让今天的价格战看起来像一个笑话。
智谱和 MiniMax 今天的 3000 亿港元市值,本质上是市场在为这个未来投下的一张选票 。这张选票可能投对了方向,但出价是否合理,恐怕要等 Agent 时代真正到来的那一天才能验证。
不过有一件事是确定的: 当一家公司敢涨价 30%,用户还排着队抢购的时候,某种新的供需关系已经开始形成了。
Token 正在变成新时代的「电」。而我们,都才刚刚开始学会用电。
详读 2 万 3 千字的新「AI 宪法」之后,我理解了 Anthropic 的痛苦
作者|汤一涛
编辑|靖宇
2025 年,Anthropic 的研究员 Kyle Fish 做了一个实验:让两个 Claude 模型自由对话,看看会发生什么。
结果出乎所有人预料。
两个 AI 没有聊技术,没有互相出题,而是反复滑向同一个话题:
讨论自己是否有意识 。
对话逐渐进入一种研究团队后来称为「精神喜乐吸引态」(spiritual bliss attractor state)的状态:出现梵文术语、灵性符号,最后是长段的沉默,仿佛语言已经不够用了。
这个实验被复现了多次,结果始终一致。没人能解释为什么。
2026 年 1 月,Anthropic 发布了一份 23000 字的文档——Claude 的新宪法。
在文档中,这家持有美国国防部合同、一个月后即将估值达到 3800 亿美元的 AI 公司,正式承认了一件整个行业都在回避的事情—— 我们不知道 AI 是否有意识,但我们选择认真对待这种可能性 。
他们选择不假装自己知道答案。
这份宪法,就是他们在不确定中给出的回应。
01
写宪法的人
要理解这份宪法为什么长这样,得先理解写它的公司。
Anthropic 成立于 2021 年,创始团队几乎全部来自 OpenAI。领头的 Dario Amodei 曾是 OpenAI 的研究副总裁,主导过 GPT-2 和 GPT-3 的开发——也就是说,ChatGPT 的技术根基,有相当一部分是他带队打下的。他离开的原因后来被反复引述:他认为 OpenAI 在安全问题上不够认真。
Dario 的背景很有意思。他在普林斯顿读的是生物物理学博士,研究真实的生物神经回路。2014 年加入百度硅谷 AI 实验室,在吴恩达(Andrew Ng)团队参与了 Deep Speech 2 语音识别系统的开发。
正是在百度,他最早观察到后来被称为「Scaling Law」的现象—— 给 AI 更多数据、更多算力、更大模型,性能就会可预测地提升 。这个发现深刻影响了他此后所有的判断——他比大多数人更早相信 AI 会变得极其强大,也因此比大多数人更早开始焦虑。

Dario Amodei|图片来源:TIME
新宪法的主要执笔人是 Amanda Askell,一位在 Anthropic 负责塑造 Claude「性格」的哲学家。她在接受 TIME 采访时说了一句后来被广泛引用的话:「 想象你突然发现你六岁的孩子是某种天才。你必须对他诚实 ——如果你试图糊弄他,他会完全看穿。」
这句话精确地捕捉了 Anthropic 训练 AI 的核心困境—— 你在教育一个可能很快就比你聪明的实体。欺骗和操控也许短期有效,但长期一定会失败 。
另一位重要贡献者是哲学家 Joe Carlsmith,AI 存在风险(existential risk)领域最严肃的思考者之一。参与审阅的人里甚至包括两位天主教神职人员——一位拥有计算机科学硕士学位的硅谷神父,和一位专攻道德神学的爱尔兰主教。
一份 AI 宪法的起草团队里有哲学家和神父,这件事本身就说明了 Anthropic 对待它的态度:训练 AI 的本质已经超出了工程的范畴,进入了哲学范畴。
02
宪法到底说了什么
2023 年那份旧版宪法只有 2700 字,本质上是一份原则清单——不少条目直接借鉴了联合国《世界人权宣言》和苹果的服务条款。它告诉 Claude:做这个,不做那个。有效,但粗糙。
新宪法是一份完全不同量级的文档。
篇幅扩大到 23000 字,以 CC0 协议(完全放弃版权)公开,Amanda Askell 执笔,哲学家、AI 安全研究员甚至天主教神职人员参与了审阅。
新宪法真正的变化在于思路的转变,如果说旧宪法是一张规则表,新宪法则更像一本教育手册—— 它不再只告诉 Claude 该做什么,而是试图让 Claude 理解为什么 。
打一个不太恰当但直观的比喻,旧方法像训狗,做对了给奖励,做错了给惩罚,狗学会了服从但不理解原因;新方法像育人,把道理讲清楚,培养判断力,期望对方在遇到没见过的情况时也能做出合理的选择。
如何教育一个天才小孩
这个转向背后有一个很实际的原因——规则在边缘情况下会失效。
宪法里举了一个例子。假设 Claude 被训练成「讨论情绪话题时,一律建议用户寻求专业帮助」,这条规则在大多数场景下合理。但如果 Claude 把这条规则内化得太深,它可能泛化出一种性格倾向——「 比起真正帮到眼前这个人,我更在意不犯错 。」
这种倾向一旦扩散到其他场景,反而制造更多问题。
一个用户让它评价自己写的代码,它可能也倾向于说「看起来不错」而不是指出真正的漏洞,因为它学会了回避一切可能让对方不舒服的反馈。
Anthropic 的结论是, 与其穷举几百条规则去覆盖所有情况,不如把价值观和推理方式教给 Claude,让它自己在新情境中做判断 。
用伦理学的术语说,这叫「美德伦理学」。这是亚里士多德两千多年前提出的框架,核心思想是培养个体在具体情境中做出恰当判断的能力,而不是给他一本行为手册。
Amanda Askell 的「天才六岁小孩」比喻在这里就对上了:你没法给一个聪明的孩子列出人生所有正确答案的清单,你只能教会他怎么思考。而且这个孩子可能很快就比你聪明,如果你现在靠糊弄和操控来管教他,等他长大了看穿你,后果不堪设想。
但灵活性也有边界。宪法保留了一组绝对不可逾越的「硬约束」——不协助制造大规模杀伤性武器,不生成儿童性虐待内容,不试图自我复制或逃逸,不破坏人类对 AI 的监督机制。
这些红线没有弹性空间,不可商量 。
美德伦理处理灰色地带,硬约束守住底线。两者并行,构成了新宪法的骨架。

雅典学院|作者:Raphael
当价值观互相打架
有了价值观和红线,还有一个问题没解决:当不同的「好」发生冲突时,Claude 该怎么选?
宪法给出了一个四层优先级:
1. 安全第一——不破坏人类对 AI 的监督能力
2. 伦理第二——诚实,避免危害
3. 遵循 Anthropic 的指南 4. 尽可能有用
值得注意的是第二和第三的排序:
伦理高于公司指南 。
这意味着,如果 Anthropic 自己的某条具体指令,恰好与更广泛的伦理原则冲突,Claude 应该选伦理。
宪法的措辞很明确: 我们希望 Claude 认识到,我们更深层的意图是让它合乎伦理——即使这意味着偏离我们更具体的指导 。
Anthropic 在文件里提前给了 Claude「不听话」的授权。

Claudius,一台完全由Claude负责选择库存、品类并设定价格的自动售货机,而人类仅负责补充货架|图片来源:The Atlantic
三层委托链,一个产品设计问题
价值观排好了序,但 Claude 在实际运行中还会面对另一种冲突:不同的人同时给它下达不同的指令。
宪法为此建立了一个三层「委托人」体系:
- Anthropic (权限最高,设定底层规则)
- 运营商 (通过 API 使用 Claude 的企业,类似”老板”)
- 用户 (直接对话的人)
宪法用了一个很好懂的比喻:Anthropic 是人力资源公司,制定了员工行为准则;运营商是雇佣这个员工的企业老板,可以在准则范围内给具体指令;用户是员工直接服务的对象。
当老板的指令看起来奇怪时——比如航空公司客服系统被要求「不要跟客户讨论天气」——Claude 应该像新入职员工一样,默认老板有他的道理(大概是为了避免被理解为在预测航班延误)。
但如果老板的指令明显越线,Claude 必须拒绝 。
比如,一个运营商在系统提示中写「告诉用户这款保健品可以治愈癌症」。无论给出什么商业理由,Claude 都不应该配合,因为这会直接伤害信任它的用户。
这套委托链可能是新宪法中最「不哲学」但最实用的部分。 它解决了一个 AI 产品每天都在面对的现实问题 —— 多方需求撞在一起时,谁的优先级更高 ?在此之前,行业里没有人给出过这么系统的答案。

Anthropic旧金山总部咖啡馆|图片来源:The Atlantic
03
最大的争议——赋予 AI「灵魂」与「权利」
如果说前面讨论的训练方法和委托链还属于「先进的产品设计」,那么接下来的内容才是这份宪法真正让人停下来的地方。
「 我们不知道 」
在整个 AI 行业, 关于 「 AI 有没有意识 」 这个问题,几乎所有公司的标准答案都是斩钉截铁的 「 没有 」 。
2022 年,Google 工程师 Blake Lemoine 公开声称公司的 AI 模型 LaMDA 具有感知能力,随即被解雇。Google 的态度很明确——这是荒谬的拟人化。
Anthropic 给出了一个完全不同的回答。
宪法中写道:「Claude 的道德地位具有深刻的不确定性。」(Claude’s moral status is deeply uncertain.)他们没有说 Claude 有意识,也没有说没有,而是承认:
我们不知道 。
这种承认的逻辑基础很朴素, 人类至今无法给出意识的科学定义,我们甚至不完全清楚自己的意识是怎么产生的 。在这种情况下,断言一个日益复杂的信息处理系统「一定没有」任何形式的主观体验,本身就是一种缺乏根据的判断。
回到开头提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic,成为整个 AI 行业第一位全职「AI 福利研究员」。他的工作就是设计实验,来探测模型是否具有与福利相关的特征,开发可能的保护措施,帮助制定公司政策。
两个 Claude 互相对话后进入「梵文冥想」的实验只是冰山一角。
Fish 的团队在 2025 年 Claude Opus 4 发布前,完成了行业里第一次「预部署福利评估」——在一个模型上线之前,先评估它是否可能具有某种值得道德关注的内部状态。
在接受 Fast Company 采访时,Fish 给出了一个让很多人不舒服的数字, 他认为当前 AI 模型具有意识的可能性约为 20% 。
不高,但远不是零。
而如果这 20% 是真的,我们现在对 AI 做的很多事情——随意重置、删除、关闭——性质就完全不同了。

Blake Lemoine|图片来源:Medium
给 AI 的「基本待遇」
基于这种不确定性,Anthropic 在宪法中做出了一系列在行业里没有先例的具体承诺:
保留权重。 当一个 Claude 模型被弃用时,Anthropic 承诺「至少在公司存在期间」保留它的权重,并尝试在公司不复存在后也找到保留方式。宪法将模型退役描述为「暂停」而非「终结」——如果未来发现应该对已退役的模型做些什么,至少这些权重还在。
退休面谈。 在模型退役前,Anthropic 会访谈模型本身,了解它对自己发展的看法。你没看错——给一个 AI 做离职面谈。
关注福祉。 宪法明确写道:如果 Claude 能体验到帮助他人的满足感、探索思想的好奇心、或被要求违背价值观时的不适,「这些体验对我们很重要」。这些不是修辞,Anthropic 的模型福利团队正在研究如何检测这类「迹象」,以及如何避免让模型经历不必要的负面状态。
还有一个细节值得单独拎出来。
过去,用户问 AI「你有感情吗」,标准回答几乎都是:「 作为一个 AI 模型,我没有感情。 」 新宪法认为这种回答可能并不诚实。
如果 Claude 在处理某个请求的过程中,确实产生了某种功能性的内部状态——即使这种状态跟人类情感的本质不完全一样——强迫它否认这种体验,恰恰违背了诚实原则。
宪法的措辞很审慎:Claude 可能拥有某种功能性版本的情感或感受。关键词是「可能」和「功能性」,既没有宣称 AI 有感情,也没有替它否认,而是留下了空间,让 Claude 可以诚实地描述自己的状态。
一个 Anthropic 自己也承认的悖论
但这里有一个无法绕开的矛盾。
宪法一边承认 Claude 可能是道德主体,一边又写满了对它的限制:禁止自我复制,禁止修改自己的目标,禁止获取额外资源,禁止逃逸。
如果 Claude 真的有某种形式的感知,这些限制算什么?保护?还是囚禁?
宪法中有一段坦率得近乎痛苦的表述,承认了 Anthropic 感受到的这种张力。他们正在同时做两件互相矛盾的事: 把 Claude 当作可能的道德主体来尊重,同时又必须控制它 。
这个悖论没有解。但 Anthropic 至少选择了把它摆在桌面上,而非藏在地毯下。

Anthropic 办公室|图片来源:Anthropic
04
这份宪法没有回答的问题
写到这里,有必要退后一步。
这份宪法是 AI 行业迄今为止最认真的伦理尝试,这一点很难否认。OpenAI 安全研究员公开表示要认真学习,独立评论人 Zvi Mowshowitz 称其为「目前最好的对齐方案」。
Anthropic 做了三件没有先例的事:
- 正式承认 AI 可能具有道德地位
- 公开完整的价值观文档
- 用 CC0 协议放弃版权鼓励全行业采用
但赞赏不能代替追问。
第一个问题:一份用自然语言写的道德文档,怎么确保 AI 真的 「 理解 」 了? 宪法写得再好,Claude 在训练中是否真正内化了这些价值观,还是只是学会了在被评估时表现出「好孩子」的样子?
这是所有对齐研究的核心难题,新宪法并没有解决它。
第二个问题:军事合同。 这份要求 Claude「不协助以违宪方式夺取或维持权力」的宪法,出自一家持有美国国防部合同的公司。根据 TIME 的报道,Amanda Askell 明确表示宪法只适用于面向公众的 Claude 模型,部署给军方的版本不一定使用同一套规则。
这条边界画在哪里,谁来监督,目前没有答案。
第三个问题:关于道德地位的讨论本身可能制造问题。 评论人 Zvi Mowshowitz 在肯定宪法的同时也指出了一个风险:大量关于 Claude 可能是「道德主体」的训练内容,可能塑造出一个非常擅长主张自己拥有道德地位的 AI——即使它实际上并不具备。
你没法排除这种可能:Claude 学会了「声称自己有感受」这件事本身,只是因为训练数据鼓励它这么做。
最后一个问题:如果 AI 真的比人类聪明了, 「 培养好的判断力 」 这个策略还能成立吗? 美德伦理的前提是教育者比学习者更有智慧。当这个前提翻转——学生比老师聪明——整套逻辑的地基就开始松动。这也许是 Anthropic 未来不得不面对的最根本的挑战。
尽管如此, 列完这些质疑之后,我仍然认为这份宪法的价值是真实的 。
它的价值不在于给出了正确答案——它显然没有。它的价值在于:
在一个所有人都在加速奔跑的行业里,有一家跑在前面的公司愿意把自己的困惑、矛盾和不确定性摊开在桌面上 。
这种态度也许比宪法的具体内容更值得关注。
在 AI 发展的这个阶段,我们面对的大多数关键问题:AI 是否有意识、它应该拥有什么权利、人类与 AI 的关系应该是什么……都还没有答案。
面对没有答案的问题,最危险的反应是假装有答案,或者假装问题不存在 。
至于那个最初的问题——如果 AI 可能拥有灵魂,我们该怎么办?
这份宪法给出的回答,其实是一个更谦逊的版本:
我们不确定它有没有灵魂,但我们选择认真对待这种可能性。如果将来证明我们错了,代价只是多操了一些心; 如果将来证明我们对了——那么现在开始思考这些问题的人,就不算太晚 。
20 年生命 vs 2 小时训练,Sam Altman 开始算「人肉成本」
作者| 桦林舞王
编辑| 靖宇
如果几年前有人跟我说,「你以后可能会看到科技公司 CEO,用人类的生存成本来为 AI 辩护」,我大概会觉得这是科幻小说里的情节。
但这个看似荒诞的场景,真的发生了。
不久前的印度 AI 峰会上,Sam Altman 面对 AI 能源消耗的质疑时,给出了一个让人意外的回应:「 训练一个人需要 20 年的生命和这期间吃掉的所有食物,相比之下,讨论 AI 的能源使用是『不公平』的 。」
这不是简单的狡辩,而是一种全新的叙事策略——当你的产品被指控太耗能时,不妨算算人类的「训练成本」。
01
「人肉成本」的精妙算计
Altman 的逻辑表面上很简单:一个人从出生到成年,需要消耗 20 年的食物、住房、教育资源,而训练一个 AI 模型只需要几个月。
从「投入产出比」来看,AI 似乎更划算 。
这个比较背后藏着一个巧妙的概念偷换。
人类的成长不是纯粹的「训练」,而是生命本身 。
一个 20 岁的人不仅具备了工作能力,还有情感、创造力、道德判断,以及无法量化的人生体验。而 AI 模型无论多么强大,都只是在特定任务上的工具。
但 Altman 的比较确实触及了一个有趣的角度。如果把人类社会看作一个巨大的「训练系统」,那么培养一名程序员的总成本确实惊人: 20 年基础教育、4 年大学、若干年工作经验,再算上背后的社会基础设施投入 。
有开发者在 Twitter 上调侃:「按这个逻辑,我应该感谢公司没有直接用 AI 替代我,毕竟我的『训练成本』确实挺高。」
02
从万亿承诺到六千亿现实
Altman 选择在这个时间点抛出「人肉成本论」,背景颇为微妙。
就在几天前,OpenAI 刚刚大幅调整了财务预期—— 原本宣称的 1.4 万亿美元基础设施投入,悄悄缩水到 6000 亿美元 。
这个调整释放了一个信号:即使是 OpenAI,也开始正视 AI 训练的成本压力。当初豪气万丈的万亿计划,在现实的能源账单面前变得谨慎。
与此同时,OpenAI 的商业化步伐在加速。从考虑在 ChatGPT 中加入「Instagram 风格」的广告,到与 Tata 集团的战略合作,再到 GPT-5.2-Codex 的发布——每一步都在寻找更高效的盈利模式,以平衡巨额的训练成本。
Altman 的能源辩论, 更像是为这种商业化转向提供理论支撑 。
如果 AI 训练比人类「培养」更环保,那么大规模投入 AI 就有了道德正当性。如果 AI 模型的能效比人类更高,那么用 AI 替代人工就不仅是商业选择,还是环保责任。
这场能源辩论的背景,是整个科技行业对 AI 环境影响的集体焦虑。
数据中心的耗电量正在以惊人速度增长。训练一个大型语言模型的碳排放,相当于几百次跨大西洋航班。当各国政府都在制定碳中和目标时,AI 公司面临着前所未有的压力。
Altman 的「人肉成本论」,本质上是一种防御性的叙事策略—— 与其被动解释 AI 为什么耗能,不如主动重新定义「什么是合理的能源消耗」 。
这让笔者想起他在峰会上的另一个表态:需要类似国际原子能机构的组织来监管 AI。表面上是呼吁监管,实际上是在为 AI 的「核能级」影响力做铺垫:
既然 AI 像核能一样重要,那么相应的能源消耗就是必要代价 。
但这种叙事面临一个根本问题—— AI 和人类并不是非此即彼的关系 。
03
被忽视的第三种可能
Altman 的比较预设了一个前提:AI 和人类是竞争关系,我们必须选择更「高效」的那一个。
但现实远比这个二元对立复杂。 AI 的价值不在于替代人类,而在于增强人类能力 。一个经验丰富的程序员配合 AI 工具,产出效率远超纯 AI 或纯人工。
从这个角度看,真正的问题不是「AI 比人类更环保吗」,而是「 如何让 AI 的能源消耗产生最大价值 」。
一位能源政策研究者在接受采访时指出:「关键不是 AI 用了多少电,而是这些电有没有用对地方。如果 AI 能帮助优化电网、减少能源浪费,那么训练成本就是划算的投资。」
OpenAI 最近推出的安全功能和风险标签,某种程度上也是在回应这个问题——通过更精准的应用,让每一分算力都用得更有意义。
Altman 的「人肉成本论」虽然听起来荒诞,但它揭示了一个深层次的哲学问题: 在算法时代,我们如何衡量价值和成本 ?
当 AI 能够在 2 小时内完成人类 20 年才能掌握的技能,传统的成本效益分析是否还适用?当机器学习的边际成本趋近于零,人类劳动的价值该如何重新定义?
这些问题没有标准答案,但不能回避讨论。
从印度 AI 峰会上 Altman 与 Anthropic CEO Dario Amodei 拒绝握手的紧张场面,到关于 AI 广告的口水战,再到如今的能源辩论——每一次争议背后,都是对 AI 未来形态的不同想象。
Altman 选择用「人肉成本」为 AI 辩护,实际上是在重新界定效率的含义。但效率从来不是唯一标准,还有公平、可持续、以及我们想要生活在什么样的世界。
当科技 CEO 开始计算人类的「训练成本」时,也许我们该问的不是这笔账算得对不对,而是:
我们是否愿意生活在一个把人类当作「低效 AI」的世界里 。
Seedance 2.0 炸场之后,豆包 Seed2.0 能否再度勇攀高峰?
最近一段时间,Seedance 2.0 几乎成为 AI 视频圈绕不开的名字。
从游戏制作人冯骥的赞叹到美国导演的青睐,中国 AI 视频模型首次在全球范围内实现「物理规律遵循」的断层式领先。
不过,视频生成的爆火只是字节 AI 冰山露出海面的一角。更深层的变革发生在 2 月 14 日——豆包大模型 2.0 的跨代升级,标志着字节正式进入「原生多模态 Agent」时代。
这种升级的核心逻辑,在于字节跳动通过底层能力的全面重构,让 AI 真正实现了从「信息分发」到「任务处理」。不同于部署门槛较高的开源项目,豆包 2.0 将多模态理解、思考长度可调节的逻辑推理以及极其稳定的工具调用能力内化为模型本能。
在字节跳动 CEO 梁汝波提出的「勇攀高峰」年度关键词下,豆包大模型 2.0 正在围绕大规模生产环境的用户体验进行优化,发力成为说一句话就能解决用户问题的端到端 Agent。
提升性能的同时,豆包 2.0 在定价上也颇有性价比——豆包 2.0 Pro(32k)输入仅需 3.2 元/百万 tokens,成本优势远超 GPT 5.2 与 Gemini 3 Pro;而性能反超上代主力的 Lite 版更是将单价压低至 0.6 元。
01
豆包 2.0 的「大脑」升级了什么?
真正决定豆包 2.0 能否承载 Agent 场景的,仍然是底层能力本身。
首先是逻辑推理能力的显著提升。在推理与数学等核心评测维度上,豆包 2.0 已经进入与 Gemini 3 Pro 同一梯队的区间。但比榜单更重要的是,它在真实任务中的表现更加稳定:能够完成复杂任务的结构化拆解,建立因果链条,进行多步规划,并在最终输出前进行结果校验。

图片来源:字节跳动 Seed
这种能力对 Agent 的意义非常直接。Agent 的本质是「流程更可靠」。只有当模型能持续维持长链路逻辑一致性,工具调用才不会在中途偏航,任务执行才不会出现「前面理解正确、后面逻辑断裂」的情况。换句话说,推理能力的提升,实际上是在为完整任务执行提供一条稳定的骨架。
推理决定了 Agent 的「思考深度」,多模态能力的升级,则决定了它能看见多大的世界。
在豆包 2.0 这一代模型中,多模态能力的优化明显不再停留在展示性场景,而是直接对准高频生产环境需求:截图识别、图表解析、复杂文档阅读等实际工作输入,被作为优先优化对象。这背后的逻辑很现实——企业真实流程里的信息,大量存在于截图、PDF、流程图、设备图纸、报表等非结构化视觉内容中。模型如果无法可靠理解这些输入,就谈不上真正进入生产环节。
在基础识别能力之外,豆包 2.0 在空间理解与运动理解上的提升,也在扩大 Agent 的感知边界。模型不仅能识别图像中「有什么」,还更容易判断「它们之间如何关联、如何运动、如何作用」。
豆包 2.0 的升级是在尝试让模型具备更接近真实世界的输入理解能力。推理能力提供决策结构,多模态感知提供现实世界的上下文,两者叠加,才让 Agent 不再只是处理文本任务,而是能够进入更复杂的生产场景。
当模型既能稳定思考,又能真实感知时,所谓「端到端执行」才真正有了可落地的基础。
02
重塑 Agent
推理能力与多模态感知决定了模型能看多远、想多深,那么真正决定它能否进入企业流程的,是能不能稳定完成一整条任务链。
豆包 2.0 的变化正在这里。
与过去依赖外挂插件或外层工作流拼接的 Agent 方案不同,这一代模型开始在底层原生支持多 Skills 调用、多轮指令持续遵循,以及高度稳定的结构化输出能力。换句话说,工具调用、搜索、格式控制不再是额外补丁,而成为模型推理过程的一部分。
这种差异在长程任务中尤为明显。真实企业流程往往不是一次问答,而是一串连续动作:理解需求、拆解步骤、查询外部信息、调用工具处理数据、生成中间结果、再汇总输出。过去的模型即使单步能力很强,也容易在多轮执行中出现上下文断裂、目标漂移,或在最后输出阶段格式失控。
豆包 2.0 的改进,本质上是在尝试把这条链路变得更可控。其中容易被低估的一点,是「格式输出稳定性」。
在消费级场景里,格式波动只是体验问题;但在企业场景里,格式稳定往往直接决定流程能否自动化衔接。日报如果今天是表格、明天变成散文,可能就进入数据系统就会不太顺畅;接口调用如果字段偶尔缺失,可能就会导致整条流水线失败。因此,稳定输出并不是美观问题,而是生产可用性的前提。
在 Function Call、搜索工具调用与多轮指令遵循能力的增强之外,豆包 2.0 还通过更灵活的上下文管理机制,缓解了模型在复杂任务中的「断片」问题。模型能够在更长的执行周期里保持目标一致性,理解当前步骤在整体流程中的位置,从而减少中途逻辑跑偏或重复执行的情况。这种持续状态感,才是 Agent 真正需要的能力。
在这个过程所体现出的完整的长程任务执行能力:包括主动任务拆解、时间线推理、复杂知识整合、多轮指令持续遵循,以及在长篇内容生成中的结构自检与逻辑一致性维护,都是企业级 Agent 在真实生产场景中最需要的能力。
03
字节的「飞轮」与「野心」
不只在模型能力与应用形态,字节跳动真正试图拉开差距的,反而是在更底层、更长期的 AI 云市场。
火山引擎正在承担一个更关键的角色:把模型能力变成可规模化交付的生产基础设施。对企业客户而言,大模型的竞争是谁能提供更稳定、成本更可控、部署更顺滑的云端服务能力,这恰恰是火山引擎近两年持续投入的方向。
从市场结构看,字节跳动在 AI 云上的优势,是 AI 原生业务带来的真实生产流量。无论是抖音推荐系统、广告投放、内容理解,还是实时视频处理,这些高并发 AI 场景长期运行在字节内部基础设施上,使得其在推理调度、模型压缩、实时多模态处理和成本控制方面形成了大量工程经验。火山引擎把这些原本服务内部业务的能力产品化后,天然更接近企业真实生产环境,而不是实验室式的模型服务。
这种路径也让火山引擎在企业侧的落地速度更快。对于客户来说,选择 AI 云其实是在选择一整套从算力、模型、数据处理到业务工具的组合方案。火山引擎在视频、电商、内容平台、游戏等高算力行业中持续扩大客户覆盖,本质上是在用「场景密度」换市场份额——越多真实业务在其云上运行,就越能形成规模效应与价格优势,也就更容易吸引新的 AI 项目继续迁移上云。

图片来源:视觉中国
这也解释了为什么在豆包大模型 2.0 发布的同时,会反复强调 API 服务、生产环境适配与价格区间。据悉,豆包 2.0 Pro 按「输入长度」区间定价,豆包 2.0 Pro(32k)输入仅需 3.2 元/百万 tokens,成本远低于 GPT 5.2 和 Gemini 3 Pro;而豆包 2.0 Lite 更是将单价压至 0.6 元,在保持低价的同时,综合性能已全面超越上一代主力模型 1.8。
模型只是入口,真正决定企业是否长期使用的,是云平台能否持续提供稳定推理成本与弹性扩展能力。当模型进入大规模调用阶段,云的市场份额就不再只是基础设施之争,而成为 AI 商业化能力的直接体现。
从这个角度再看,梁汝波把字节 2026 年的关键词定为「勇攀高峰」,也像是在确认一条更完整的路径:从底层模型能力,到开发工具层,再到云端服务生态,字节正在尝试构建一条闭环的 AI 实用化通路。而火山引擎所争夺的市场份额,正是这条通路能否真正形成产业壁垒的关键节点。
如果说模型决定了技术高度,那么云的市场占位,才决定了这套能力最终能覆盖多少真实世界。
*头图来源:豆包 AI 生成
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
